本文介绍了一种基于MoE的语音识别模型SpeechMoE,使用稀疏L1损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性,并使用了新的路由器架构,可以同时利用共享嵌入网络的信息和不同MoE层的分层表示。实验结果表明,该模型可以提供7.0%-23.0%的相对CER改进。
完成下面两步后,将自动完成登录并继续当前操作。