MSR-86K:一个包含 86,300 小时语音转换文本的多语种演变语料库,用于语音识别研究
💡
原文中文,约1800字,阅读约需5分钟。
📝
内容提要
本文介绍了GigaSpeech语音识别语料库,包含多领域的高质量音频,提供训练子集和新对齐管道。研究表明,基于GigaSpeech 2的模型在低资源语言上显著提高了识别性能,降低了词错误率。同时,探讨了多语言训练对低资源语言ASR的优势,并展示了多种语言的基准测试结果。
🎯
关键要点
- GigaSpeech是一个多领域的英语语音识别语料库,包含高质量标记音频,提供五个不同大小的训练子集。
- GigaSpeech 2是为低资源语言设计的大规模、多领域、多语种语音识别语料库,能够显著降低词错误率。
- 多语言训练可以提高低资源语言的自动语音识别性能,特别是与单语言训练相比,识别性能有显著提升。
- 在51种语言的基准测试中,联合模型和多头模型的平均词错误率分别减少了20.9%和28.8%。
- 研究表明,基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上表现优于商业服务。
❓
延伸问答
GigaSpeech语音识别语料库的主要特点是什么?
GigaSpeech是一个多领域的英语语音识别语料库,包含高质量标记音频,提供五个不同大小的训练子集。
GigaSpeech 2如何改善低资源语言的语音识别性能?
GigaSpeech 2通过多语言训练显著降低了低资源语言的词错误率,提升了识别性能。
多语言训练与单语言训练相比有什么优势?
多语言训练在低资源语言的自动语音识别中表现更好,识别性能显著提升,平均词错误率减少。
GigaSpeech 2在泰语和印尼语的表现如何?
基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上表现优于商业服务,词错误率降低25%至40%。
GigaSpeech 2的构建过程中采用了哪些新技术?
GigaSpeech 2引入了自动化的数据爬取、转录和标签优化流程,以及修改的Noisy Student Training来提高模型性能。
在51种语言的基准测试中,联合模型的表现如何?
在51种语言的基准测试中,联合模型的平均词错误率相对减少了20.9%。
➡️