GigaSpeech 2是一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库。通过自动化的数据处理流程和修改的Noisy Student Training,提高了模型性能。实验结果显示,基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上词错误率降低25%至40%。该语料库和流程为低资源语音识别研究提供了新的途径。
INDICVOICES数据集包含了来自16237名发言人的7348小时的语音数据,涵盖了145个印度地区和22种语言。作者分享了数据收集的标准化协议、工具、问题、提示和对话场景库,以及质量控制机制和转录指南。他们希望这个开源蓝图能成为其他多语言地区数据收集的指南。利用INDICVOICES,他们构建了IndicASR,这是第一个支持印度宪法第八版中列出的22种语言的ASR模型。所有数据、工具、指南、模型和其他资料都将公开提供。
INDICVOICES数据集包含了来自16237名发言人的7348小时语音,涵盖了145个印度地区和22种语言。作者分享了数据收集的标准化协议、工具、问题、提示和对话场景库,以及质量控制机制和转录指南。利用INDICVOICES构建了IndicASR,是第一个支持22种语言的ASR模型。所有数据、工具、指南、模型和其他资料都将公开提供。
完成下面两步后,将自动完成登录并继续当前操作。