该研究提出了Mixture of Expert Clusters模型,通过引入基于方差的约束来促进专家层学习更多不同和适当的知识,并提出了一种专家集群结构的集群级别专家丢失策略。实验证明,该模型可以提高机器翻译和自然语言理解任务的性能,并在有限数据条件下扩展专家的性能上限,对缓解过度拟合和稀疏数据分配问题起到积极作用。
完成下面两步后,将自动完成登录并继续当前操作。