华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

💡 原文中文,约3000字,阅读约需8分钟。
📝

内容提要

华为GTS AI计算Lab的研究团队提出了LocMoE+架构,结合了传统的被动路由和专家主动路由机制,通过提高处理判别性token的概率来降低样本噪声和提升训练效率。实验结果表明,LocMoE+可以减少每个专家需要处理的token数量,并提高训练效率,同时减少显存占用。该架构在通用知识和领域知识上的能力也得到了评估。

🎯

关键要点

  • 华为GTS AI计算Lab提出LocMoE+架构,结合传统被动路由和专家主动路由机制。

  • LocMoE+通过提高处理判别性token的概率来降低样本噪声和提升训练效率。

  • 实验结果显示,LocMoE+减少每个专家处理的token数量,提高训练效率,降低显存占用。

  • LocMoE架构有效缓解了MoE经典结构在训练中的瓶颈。

  • LocMoE+定义token与专家之间的亲和度指标,以提升token分派效率。

  • 论文提出自适应双向路由分派机制,结合两种路由机制以提高训练效率。

  • 实验在昇腾910B3 NPU集群上进行,验证了高性能计算系统的优势。

  • LocMoE+在训练效率上平均提高5.4%至46.6%,显存占用下降4.57%至16.27%。

  • 使用开源评测集和自主构建的评测集评估LocMoE+在通用知识和领域知识上的能力。

➡️

继续阅读