IndicVoices:为印度语言构建一个包容性的多语言语音数据集
原文中文,约400字,阅读约需1分钟。发表于: 。我们提供了 INDICVOICES 数据集,该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音,涵盖了 145 个印度地区和 22...
INDICVOICES数据集包含了来自16237名发言人的7348小时语音,涵盖了145个印度地区和22种语言。作者分享了数据收集的标准化协议、工具、问题、提示和对话场景库,以及质量控制机制和转录指南。利用INDICVOICES构建了IndicASR,是第一个支持22种语言的ASR模型。所有数据、工具、指南、模型和其他资料都将公开提供。