本文探讨了多语言自动语音识别(ASR)和文本转语音(TTS)系统在印度语言中的研究进展。研究表明,在低资源环境下,深度神经网络(DNN)技术和自我监督模型显著提高了语音识别的准确性。同时,介绍了多个新数据集的创建及其对模型性能的提升,强调了数据多样性和代表性的重要性。所有研究成果和数据将公开共享,以促进相关领域的发展。
INDICVOICES数据集包含了来自16237名发言人的7348小时语音,涵盖了145个印度地区和22种语言。作者分享了数据收集的标准化协议、工具、问题、提示和对话场景库,以及质量控制机制和转录指南。利用INDICVOICES构建了IndicASR,是第一个支持22种语言的ASR模型。所有数据、工具、指南、模型和其他资料都将公开提供。
完成下面两步后,将自动完成登录并继续当前操作。