MSR-86K:一个包含 86,300 小时语音转换文本的多语种演变语料库,用于语音识别研究
原文中文,约400字,阅读约需1分钟。发表于: 。该论文介绍了 MSR-86K,这是一个逐渐增长的大规模多语言语音识别研究语料库,由 YouTube 上公开可访问的视频转录数据组成,包括 15 种语言和总共 86300 小时的 ASR 数据。同时,该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布...
GigaSpeech 2是一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库。通过自动化的数据处理和Noisy Student Training,提高了模型性能。实验结果表明,GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上词错误率降低25%至40%。基于GigaSpeech 2训练的ASR模型性能优于商业服务。该研究为低资源语音识别开辟了新的研究途径并促进了该领域的发展。