IndicVoices-R:解锁一个巨大的多语言多说话人语音语料库,以扩展印度文本到语音技术
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
GigaSpeech 2是一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库。通过自动化的数据处理流程和修改的Noisy Student Training,提高了模型性能。实验结果显示,基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上词错误率降低25%至40%。该语料库和流程为低资源语音识别研究提供了新的途径。
🎯
关键要点
- GigaSpeech 2是为低资源语言设计的大规模、多领域、多语种的语音识别语料库。
- 该语料库不依赖于配对的语音和文本数据。
- 介绍了自动化的数据爬取、转录和标签优化流程。
- 通过修改的Noisy Student Training提高了模型性能。
- 实验结果显示,基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上词错误率降低25%至40%。
- 与商业服务相比,基于GigaSpeech 2训练的ASR模型表现更佳。
- 该语料库和流程为低资源语音识别研究提供了新的途径。
➡️