Demons in the Details: Implementing Load Balancing Loss in Training Specialized Mixture-of-Expert Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文探讨了专家混合模型(MoEs)训练中的负载平衡损失(LBL)实现,指出现有微批次策略限制了专家的专业化。提出了一种新的全局批次计算LBL的方法,通过额外的通信步骤同步专家选择频率,显著提升了模型的预训练效果和下游任务性能。

🎯

关键要点

  • 本文重新审视了专家混合模型(MoEs)训练中的负载平衡损失(LBL)实现。
  • 现有的微批次策略限制了专家的专业化。
  • 提出了一种新的全局批次计算LBL的方法。
  • 新方法通过额外的通信步骤同步专家选择频率。
  • 该方法显著提高了MoEs模型的预训练效果和下游任务性能,促进了专家域的专业化。
➡️

继续阅读