稀疏反向传播用于 MoE 训练

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了一种基于MoE的语音识别模型SpeechMoE,使用稀疏L1损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性,并使用了新的路由器架构,可以同时利用共享嵌入网络的信息和不同MoE层的分层表示。实验结果表明,该模型可以提供7.0%-23.0%的相对CER改进。

🎯

关键要点

  • 提出了一种基于MoE的语音识别模型SpeechMoE。
  • 引入稀疏L1损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性。
  • 使用新的路由器架构,能够同时利用共享嵌入网络的信息和不同MoE层的分层表示。
  • 实验结果显示,该模型在计算成本可比的情况下,相对于传统静态网络提供了7.0%-23.0%的相对CER改进。
➡️

继续阅读