本文探讨了专家混合模型(MoEs)训练中的负载平衡损失(LBL)实现,指出现有微批次策略限制了专家的专业化。提出了一种新的全局批次计算LBL的方法,通过额外的通信步骤同步专家选择频率,显著提升了模型的预训练效果和下游任务性能。
完成下面两步后,将自动完成登录并继续当前操作。