Lory: 全可微的自回归语言模型预训练中的专家混合
💡
原文中文,约1700字,阅读约需4分钟。
📝
内容提要
本文介绍了一种基于混合专家(MoE)的语音识别模型SpeechMoE,采用稀疏L1损失和平均重要性损失优化路由器激活。实验表明,该模型在计算成本相当的情况下,CER提高了7.0%-23.0%。研究还探讨了MoE模型在不同任务中的效率,提出了新的路由策略以减少训练时间,并发布了多种开源MoE语言模型,强调其成本效益和未来发展潜力。
🎯
关键要点
- 本文提出了一种基于 MoE 的语音识别模型 SpeechMoE,采用稀疏 L1 损失和平均重要性损失来优化路由器激活。
- 实验结果显示,SpeechMoE 在计算成本相当的情况下,相比传统静态网络,CER 提高了 7.0%-23.0%。
- 研究表明 MoE 模型在不同任务中的效率优于密集模型,尤其是在相同预算下。
- 提出了一种新颖的路由策略,结合负载均衡和局部性,减少了每轮训练时间约 12.68% 至 22.24%。
- 发布了一系列开源的 MoE 语言模型,参数范围从 650M 到 34B,训练语料超过 1T 个标记,强调其成本效益。
- 对 OpenMoE 模型中的路由机制进行了深入分析,发现路由决策主要基于标记 ID,与上下文相关性较小。
- 提出了两个阶段的 StableMoE 方法,解决现有学习路由方法中的路由波动问题,并验证了其有效性。
- 引入 Mixture-of-Experts 思想的 Double-Layer MoE RM 模型在任务分类和能力维度上表现优越。
- 提出基于 LoRA 的 MixLoRA 模型,能够在消费级 GPU 上实现多个专家模型的并行微调,减少 GPU 内存消耗 41%。
❓
延伸问答
SpeechMoE模型的主要创新点是什么?
SpeechMoE模型引入了稀疏L1损失和平均重要性损失来优化路由器激活,并采用新的路由器架构。
SpeechMoE模型在CER方面的表现如何?
实验表明,SpeechMoE在计算成本相当的情况下,CER提高了7.0%-23.0%。
MoE模型相比于密集模型的优势是什么?
MoE模型在相同预算下比密集模型更加高效,尤其是在不同任务中的表现。
新提出的路由策略有什么特点?
新路由策略结合了负载均衡和局部性,减少了每轮训练时间约12.68%至22.24%。
开源的MoE语言模型有哪些特点?
开源的MoE语言模型参数范围从650M到34B,训练语料超过1T个标记,强调成本效益。
StableMoE方法解决了什么问题?
StableMoE方法解决了现有学习路由方法中的路由波动问题,并验证了其有效性。
➡️