LAHAJA:评估印地语自动语音识别系统的多口音基准
💡
原文中文,约1400字,阅读约需4分钟。
📝
内容提要
本文首次大规模研究梵语自动语音识别(ASR),发布了78小时的数据集,探讨声学和语言模型单元的影响。研究还涉及印度英语口音的ASR系统,创建了包含12种语言的Shrutilipi数据集,以提升模型准确性。此外,提出了Vistaar基准和Svarah测试数据集,评估印度口音的ASR表现,并发布了支持22种语言的INDICVOICES数据集。所有数据和工具将公开。
🎯
关键要点
- 本文首次大规模研究梵语自动语音识别(ASR),发布了78小时的梵语ASR数据集。
- 研究探讨了不同声学模型和语言模型单元在ASR系统中的角色,强调选择语文文字表示对词错误率的影响。
- 创建了Shrutilipi数据集,包含来自12种印度语言的6,400小时语音和4.95M句子,提升了模型准确性。
- 提出了Vistaar基准,用于评估和改进多个ASR系统,显著改善了考虑的ASR系统表现。
- 创建了Svarah基准测试数据集,评估ASR模型在印度口音上的表现,发现改进空间。
- 发布了INDICVOICES数据集,涵盖145个印度地区和22种语言,包含7348小时自然和自发的语音。
- 构建了IndicASR,这是第一个支持印度宪法第八版中列出的22种语言的ASR模型,所有数据和工具将公开提供。
❓
延伸问答
梵语自动语音识别(ASR)研究的主要发现是什么?
研究首次发布了78小时的梵语ASR数据集,并探讨了声学模型和语言模型单元对ASR系统的影响。
Shrutilipi数据集包含哪些内容?
Shrutilipi数据集包含来自12种印度语言的6,400小时语音和4.95M句子,旨在提高模型的准确性。
Vistaar基准的目的是什么?
Vistaar基准用于评估和改进多个ASR系统,显著改善了考虑的ASR系统表现。
INDICVOICES数据集的特点是什么?
INDICVOICES数据集涵盖145个印度地区和22种语言,包含7348小时自然和自发的语音。
如何评估ASR模型在印度口音上的表现?
通过创建Svarah基准测试数据集,评估来自117位说话者的9.6小时语音数据,发现改进空间。
IndicASR模型的创新之处是什么?
IndicASR是第一个支持印度宪法第八版中列出的22种语言的ASR模型,旨在提升多语言识别能力。
➡️