MSR-86K:一个包含 86,300 小时语音转换文本的多语种演变语料库,用于语音识别研究

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

GigaSpeech 2是一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库。通过自动化的数据处理和Noisy Student Training,提高了模型性能。实验结果表明,GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上词错误率降低25%至40%。基于GigaSpeech 2训练的ASR模型性能优于商业服务。该研究为低资源语音识别开辟了新的研究途径并促进了该领域的发展。

🎯

关键要点

  • GigaSpeech 2是为低资源语言设计的大规模、多领域、多语种的语音识别语料库。
  • 该语料库不依赖于配对的语音和文本数据。
  • 介绍了自动化的数据爬取、转录和标签优化流程。
  • 通过修改的Noisy Student Training提高了模型性能。
  • 实验结果显示,基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上词错误率降低25%至40%。
  • 与商业服务相比,基于GigaSpeech 2训练的ASR模型性能更优。
  • 该研究为低资源语音识别开辟了新的研究途径,促进了该领域的发展。
➡️

继续阅读