华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

💡 原文中文,约3000字,阅读约需8分钟。
📝

内容提要

华为GTS AI计算Lab的研究团队提出了LocMoE+架构,结合了传统的被动路由和专家主动路由机制,通过提高处理判别性token的概率来降低样本噪声和提升训练效率。实验结果表明,LocMoE+可以减少每个专家需要处理的token数量,并提高训练效率,同时减少显存占用。该架构在通用知识和领域知识上的能力也得到了评估。

🎯

关键要点

  • 华为GTS AI计算Lab提出LocMoE+架构,结合传统被动路由和专家主动路由机制。
  • LocMoE+通过提高处理判别性token的概率来降低样本噪声和提升训练效率。
  • 实验结果显示,LocMoE+减少每个专家处理的token数量,提高训练效率,降低显存占用。
  • LocMoE架构有效缓解了MoE经典结构在训练中的瓶颈。
  • LocMoE+定义token与专家之间的亲和度指标,以提升token分派效率。
  • 论文提出自适应双向路由分派机制,结合两种路由机制以提高训练效率。
  • 实验在昇腾910B3 NPU集群上进行,验证了高性能计算系统的优势。
  • LocMoE+在训练效率上平均提高5.4%至46.6%,显存占用下降4.57%至16.27%。
  • 使用开源评测集和自主构建的评测集评估LocMoE+在通用知识和领域知识上的能力。

延伸问答

LocMoE+架构的主要创新点是什么?

LocMoE+架构结合了传统的被动路由和专家主动路由机制,通过定义token与专家之间的亲和度指标来提高token分派效率,进而提升训练效率。

LocMoE+在训练效率上有何提升?

实验结果显示,LocMoE+在训练效率上平均提高5.4%至46.6%,并且显存占用下降4.57%至16.27%。

LocMoE+如何降低样本噪声?

LocMoE+通过提高处理判别性token的概率来降低样本噪声,从而提升训练效率。

LocMoE+的实验是在什么硬件上进行的?

实验在昇腾910B3 NPU集群上进行,验证了高性能计算系统的优势。

LocMoE+如何评估其在知识能力上的表现?

LocMoE+使用开源评测集C-Eval和TeleQnA,以及自主构建的ICT领域评测集GDAD进行评估。

LocMoE+架构如何解决MoE经典结构的瓶颈?

LocMoE+通过结合主动路由和被动路由,提升了处理判别性token的能力,从而缓解了MoE经典结构在训练中的瓶颈。

➡️

继续阅读