多语种语音识别中的低资源语言加权交叉熵
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文探讨了使用单一声学模型进行多语言训练来提升低资源语言语音识别的效果。研究在51种语言上测试,结果表明多语言模型比单语言模型更有效,尤其对低资源语言,平均WER减少20.9%至28.8%。这是首次对超过50种语言的大规模多语言ASR研究。
🎯
关键要点
- 本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能。
- 研究在51种语言上进行广泛的基准测试和比较。
- 多语言训练的ASR模型相比单语言训练可以提高识别性能,特别是对于低资源语言。
- 与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均WER分别减少20.9%、23%和28.8%。
- 这是首次对超过50种语言和超过16,000小时声音的多语言ASR进行的大规模研究。
➡️