本文重新审视了专家混合模型训练中的负载平衡损失,指出微批次策略限制了专家的专业化。提出了一种新方法,通过额外的通信步骤同步专家选择频率,从而显著提升模型性能。
完成下面两步后,将自动完成登录并继续当前操作。