BriefGPT - AI 论文速递 ·

Lory: 全可微的自回归语言模型预训练中的专家混合

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

本文介绍了一种基于混合专家（MoE）的语音识别模型SpeechMoE，采用稀疏L1损失和平均重要性损失优化路由器激活。实验表明，该模型在计算成本相当的情况下，CER提高了7.0%-23.0%。研究还探讨了MoE模型在不同任务中的效率，提出了新的路由策略以减少训练时间，并发布了多种开源MoE语言模型，强调其成本效益和未来发展潜力。

🎯

关键要点

本文提出了一种基于 MoE 的语音识别模型 SpeechMoE，采用稀疏 L1 损失和平均重要性损失来优化路由器激活。
实验结果显示，SpeechMoE 在计算成本相当的情况下，相比传统静态网络，CER 提高了 7.0%-23.0%。
研究表明 MoE 模型在不同任务中的效率优于密集模型，尤其是在相同预算下。
提出了一种新颖的路由策略，结合负载均衡和局部性，减少了每轮训练时间约 12.68% 至 22.24%。
发布了一系列开源的 MoE 语言模型，参数范围从 650M 到 34B，训练语料超过 1T 个标记，强调其成本效益。
对 OpenMoE 模型中的路由机制进行了深入分析，发现路由决策主要基于标记 ID，与上下文相关性较小。
提出了两个阶段的 StableMoE 方法，解决现有学习路由方法中的路由波动问题，并验证了其有效性。
引入 Mixture-of-Experts 思想的 Double-Layer MoE RM 模型在任务分类和能力维度上表现优越。
提出基于 LoRA 的 MixLoRA 模型，能够在消费级 GPU 上实现多个专家模型的并行微调，减少 GPU 内存消耗 41%。

❓

延伸问答

SpeechMoE模型的主要创新点是什么？

SpeechMoE模型引入了稀疏L1损失和平均重要性损失来优化路由器激活，并采用新的路由器架构。

SpeechMoE模型在CER方面的表现如何？

实验表明，SpeechMoE在计算成本相当的情况下，CER提高了7.0%-23.0%。

MoE模型相比于密集模型的优势是什么？

MoE模型在相同预算下比密集模型更加高效，尤其是在不同任务中的表现。

新提出的路由策略有什么特点？

新路由策略结合了负载均衡和局部性，减少了每轮训练时间约12.68%至22.24%。

开源的MoE语言模型有哪些特点？

开源的MoE语言模型参数范围从650M到34B，训练语料超过1T个标记，强调成本效益。

StableMoE方法解决了什么问题？

StableMoE方法解决了现有学习路由方法中的路由波动问题，并验证了其有效性。

🏷️