小红花·文摘

本文提出了一种流式多语言Conformer模型，结合MoE层以提高推理效率，在12种语言上相对WER改进11.9%。研究引入新的解缠损失函数，解决代码切换挑战，验证其在端到端自动语音识别中的优越性。SpeechMoE模型通过稀疏L1损失和平均重要性损失，在计算成本相当的情况下，相对CER改进7.0%-23.0%。