Lory: 全可微的自回归语言模型预训练中的专家混合

💡 原文中文,约1700字,阅读约需4分钟。
📝

内容提要

本文介绍了一种基于混合专家(MoE)的语音识别模型SpeechMoE,采用稀疏L1损失和平均重要性损失优化路由器激活。实验表明,该模型在计算成本相当的情况下,CER提高了7.0%-23.0%。研究还探讨了MoE模型在不同任务中的效率,提出了新的路由策略以减少训练时间,并发布了多种开源MoE语言模型,强调其成本效益和未来发展潜力。

🎯

关键要点

  • 本文提出了一种基于 MoE 的语音识别模型 SpeechMoE,采用稀疏 L1 损失和平均重要性损失来优化路由器激活。
  • 实验结果显示,SpeechMoE 在计算成本相当的情况下,相比传统静态网络,CER 提高了 7.0%-23.0%。
  • 研究表明 MoE 模型在不同任务中的效率优于密集模型,尤其是在相同预算下。
  • 提出了一种新颖的路由策略,结合负载均衡和局部性,减少了每轮训练时间约 12.68% 至 22.24%。
  • 发布了一系列开源的 MoE 语言模型,参数范围从 650M 到 34B,训练语料超过 1T 个标记,强调其成本效益。
  • 对 OpenMoE 模型中的路由机制进行了深入分析,发现路由决策主要基于标记 ID,与上下文相关性较小。
  • 提出了两个阶段的 StableMoE 方法,解决现有学习路由方法中的路由波动问题,并验证了其有效性。
  • 引入 Mixture-of-Experts 思想的 Double-Layer MoE RM 模型在任务分类和能力维度上表现优越。
  • 提出基于 LoRA 的 MixLoRA 模型,能够在消费级 GPU 上实现多个专家模型的并行微调,减少 GPU 内存消耗 41%。

延伸问答

SpeechMoE模型的主要创新点是什么?

SpeechMoE模型引入了稀疏L1损失和平均重要性损失来优化路由器激活,并采用新的路由器架构。

SpeechMoE模型在CER方面的表现如何?

实验表明,SpeechMoE在计算成本相当的情况下,CER提高了7.0%-23.0%。

MoE模型相比于密集模型的优势是什么?

MoE模型在相同预算下比密集模型更加高效,尤其是在不同任务中的表现。

新提出的路由策略有什么特点?

新路由策略结合了负载均衡和局部性,减少了每轮训练时间约12.68%至22.24%。

开源的MoE语言模型有哪些特点?

开源的MoE语言模型参数范围从650M到34B,训练语料超过1T个标记,强调成本效益。

StableMoE方法解决了什么问题?

StableMoE方法解决了现有学习路由方法中的路由波动问题,并验证了其有效性。

➡️

继续阅读