IndicVoices-R:解锁一个巨大的多语言多说话人语音语料库,以扩展印度文本到语音技术
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了印度语言缺乏高质量手动字幕数据的问题,通过增强现有的大规模自动语音识别数据集,生成高质量的文本到语音(TTS)训练数据。提出的IndicVoices-R(IV-R)是来自自动语音识别数据集的最大型多语言印度TTS数据集,涵盖22种语言,并引入了IV-R基准,以评估TTS模型在印度语音上的说话人泛化能力。研究表明,使用我们的数据进行微调的模型能更好地实现零-shot说话人泛化,从而...
GigaSpeech 2是一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库。通过自动化的数据处理流程和修改的Noisy Student Training,提高了模型性能。实验结果显示,基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上词错误率降低25%至40%。该语料库和流程为低资源语音识别研究提供了新的途径。