小红花·文摘

本文探讨了专家混合模型（MoEs）训练中的负载平衡损失（LBL）实现，指出现有微批次策略限制了专家的专业化。提出了一种新的全局批次计算LBL的方法，通过额外的通信步骤同步专家选择频率，显著提升了模型的预训练效果和下游任务性能。