💡
原文中文,约3000字,阅读约需8分钟。
📝
内容提要
华为GTS AI计算Lab的研究团队提出了LocMoE+架构,结合了传统的被动路由和专家主动路由机制,通过提高处理判别性token的概率来降低样本噪声和提升训练效率。实验结果表明,LocMoE+可以减少每个专家需要处理的token数量,并提高训练效率,同时减少显存占用。该架构在通用知识和领域知识上的能力也得到了评估。
🎯
关键要点
-
华为GTS AI计算Lab提出LocMoE+架构,结合传统被动路由和专家主动路由机制。
-
LocMoE+通过提高处理判别性token的概率来降低样本噪声和提升训练效率。
-
实验结果显示,LocMoE+减少每个专家处理的token数量,提高训练效率,降低显存占用。
-
LocMoE架构有效缓解了MoE经典结构在训练中的瓶颈。
-
LocMoE+定义token与专家之间的亲和度指标,以提升token分派效率。
-
论文提出自适应双向路由分派机制,结合两种路由机制以提高训练效率。
-
实验在昇腾910B3 NPU集群上进行,验证了高性能计算系统的优势。
-
LocMoE+在训练效率上平均提高5.4%至46.6%,显存占用下降4.57%至16.27%。
-
使用开源评测集和自主构建的评测集评估LocMoE+在通用知识和领域知识上的能力。
➡️