本文提出了一种流式多语言Conformer模型,结合MoE层以提高推理效率,在12种语言上相对WER改进11.9%。研究引入新的解缠损失函数,解决代码切换挑战,验证其在端到端自动语音识别中的优越性。SpeechMoE模型通过稀疏L1损失和平均重要性损失,在计算成本相当的情况下,相对CER改进7.0%-23.0%。
完成下面两步后,将自动完成登录并继续当前操作。