小红花·文摘

本文探讨了多语言自动语音识别（ASR）和文本转语音（TTS）系统在印度语言中的研究进展。研究表明，在低资源环境下，深度神经网络（DNN）技术和自我监督模型显著提高了语音识别的准确性。同时，介绍了多个新数据集的创建及其对模型性能的提升，强调了数据多样性和代表性的重要性。所有研究成果和数据将公开共享，以促进相关领域的发展。

IndicVoices-R：解锁一个巨大的多语言多说话人语音语料库，以扩展印度文本到语音技术

BriefGPT - AI 论文速递 ·

INDICVOICES数据集包含了来自16237名发言人的7348小时语音，涵盖了145个印度地区和22种语言。作者分享了数据收集的标准化协议、工具、问题、提示和对话场景库，以及质量控制机制和转录指南。利用INDICVOICES构建了IndicASR，是第一个支持22种语言的ASR模型。所有数据、工具、指南、模型和其他资料都将公开提供。

IndicVoices：为印度语言构建一个包容性的多语言语音数据集

BriefGPT - AI 论文速递 ·