LAHAJA:评估印地语自动语音识别系统的多口音基准
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对印地语自动语音识别(ASR)系统在多口音下评估的不足,提出了LAHAJA基准,包含了来自132名讲者的12.5小时各种主题的印地语音频。研究发现,基于多语言和良好讲者多样性的训练模型显著优于现有模型,并指出在北东和南印度讲者的表现尤其较差,特别是在涉及命名实体和专业术语的内容中。
INDICVOICES数据集包含了来自16237名发言人的7348小时的语音数据,涵盖了145个印度地区和22种语言。作者分享了数据收集的标准化协议、工具、问题、提示和对话场景库,以及质量控制机制和转录指南。他们希望这个开源蓝图能成为其他多语言地区数据收集的指南。利用INDICVOICES,他们构建了IndicASR,这是第一个支持印度宪法第八版中列出的22种语言的ASR模型。所有数据、工具、指南、模型和其他资料都将公开提供。