MSR-86K:一个包含 86,300 小时语音转换文本的多语种演变语料库,用于语音识别研究

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

本文介绍了GigaSpeech语音识别语料库,包含多领域的高质量音频,提供训练子集和新对齐管道。研究表明,基于GigaSpeech 2的模型在低资源语言上显著提高了识别性能,降低了词错误率。同时,探讨了多语言训练对低资源语言ASR的优势,并展示了多种语言的基准测试结果。

🎯

关键要点

  • GigaSpeech是一个多领域的英语语音识别语料库,包含高质量标记音频,提供五个不同大小的训练子集。
  • GigaSpeech 2是为低资源语言设计的大规模、多领域、多语种语音识别语料库,能够显著降低词错误率。
  • 多语言训练可以提高低资源语言的自动语音识别性能,特别是与单语言训练相比,识别性能有显著提升。
  • 在51种语言的基准测试中,联合模型和多头模型的平均词错误率分别减少了20.9%和28.8%。
  • 研究表明,基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上表现优于商业服务。

延伸问答

GigaSpeech语音识别语料库的主要特点是什么?

GigaSpeech是一个多领域的英语语音识别语料库,包含高质量标记音频,提供五个不同大小的训练子集。

GigaSpeech 2如何改善低资源语言的语音识别性能?

GigaSpeech 2通过多语言训练显著降低了低资源语言的词错误率,提升了识别性能。

多语言训练与单语言训练相比有什么优势?

多语言训练在低资源语言的自动语音识别中表现更好,识别性能显著提升,平均词错误率减少。

GigaSpeech 2在泰语和印尼语的表现如何?

基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上表现优于商业服务,词错误率降低25%至40%。

GigaSpeech 2的构建过程中采用了哪些新技术?

GigaSpeech 2引入了自动化的数据爬取、转录和标签优化流程,以及修改的Noisy Student Training来提高模型性能。

在51种语言的基准测试中,联合模型的表现如何?

在51种语言的基准测试中,联合模型的平均词错误率相对减少了20.9%。

➡️

继续阅读