机器之心 ·

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

华为GTS AI计算Lab的研究团队提出了LocMoE+架构，结合了传统的被动路由和专家主动路由机制，通过提高处理判别性token的概率来降低样本噪声和提升训练效率。实验结果表明，LocMoE+可以减少每个专家需要处理的token数量，并提高训练效率，同时减少显存占用。该架构在通用知识和领域知识上的能力也得到了评估。

🎯

关键要点

华为GTS AI计算Lab提出LocMoE+架构，结合传统被动路由和专家主动路由机制。
LocMoE+通过提高处理判别性token的概率来降低样本噪声和提升训练效率。
实验结果显示，LocMoE+减少每个专家处理的token数量，提高训练效率，降低显存占用。
LocMoE架构有效缓解了MoE经典结构在训练中的瓶颈。
LocMoE+定义token与专家之间的亲和度指标，以提升token分派效率。
论文提出自适应双向路由分派机制，结合两种路由机制以提高训练效率。
实验在昇腾910B3 NPU集群上进行，验证了高性能计算系统的优势。
LocMoE+在训练效率上平均提高5.4%至46.6%，显存占用下降4.57%至16.27%。
使用开源评测集和自主构建的评测集评估LocMoE+在通用知识和领域知识上的能力。

❓

延伸问答

LocMoE+架构的主要创新点是什么？

LocMoE+架构结合了传统的被动路由和专家主动路由机制，通过定义token与专家之间的亲和度指标来提高token分派效率，进而提升训练效率。

LocMoE+在训练效率上有何提升？

实验结果显示，LocMoE+在训练效率上平均提高5.4%至46.6%，并且显存占用下降4.57%至16.27%。

LocMoE+如何降低样本噪声？

LocMoE+通过提高处理判别性token的概率来降低样本噪声，从而提升训练效率。

LocMoE+的实验是在什么硬件上进行的？

实验在昇腾910B3 NPU集群上进行，验证了高性能计算系统的优势。

LocMoE+如何评估其在知识能力上的表现？

LocMoE+使用开源评测集C-Eval和TeleQnA，以及自主构建的ICT领域评测集GDAD进行评估。

LocMoE+架构如何解决MoE经典结构的瓶颈？

LocMoE+通过结合主动路由和被动路由，提升了处理判别性token的能力，从而缓解了MoE经典结构在训练中的瓶颈。

🏷️