LAHAJA:评估印地语自动语音识别系统的多口音基准

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

本文首次大规模研究梵语自动语音识别(ASR),发布了78小时的数据集,探讨声学和语言模型单元的影响。研究还涉及印度英语口音的ASR系统,创建了包含12种语言的Shrutilipi数据集,以提升模型准确性。此外,提出了Vistaar基准和Svarah测试数据集,评估印度口音的ASR表现,并发布了支持22种语言的INDICVOICES数据集。所有数据和工具将公开。

🎯

关键要点

  • 本文首次大规模研究梵语自动语音识别(ASR),发布了78小时的梵语ASR数据集。
  • 研究探讨了不同声学模型和语言模型单元在ASR系统中的角色,强调选择语文文字表示对词错误率的影响。
  • 创建了Shrutilipi数据集,包含来自12种印度语言的6,400小时语音和4.95M句子,提升了模型准确性。
  • 提出了Vistaar基准,用于评估和改进多个ASR系统,显著改善了考虑的ASR系统表现。
  • 创建了Svarah基准测试数据集,评估ASR模型在印度口音上的表现,发现改进空间。
  • 发布了INDICVOICES数据集,涵盖145个印度地区和22种语言,包含7348小时自然和自发的语音。
  • 构建了IndicASR,这是第一个支持印度宪法第八版中列出的22种语言的ASR模型,所有数据和工具将公开提供。

延伸问答

梵语自动语音识别(ASR)研究的主要发现是什么?

研究首次发布了78小时的梵语ASR数据集,并探讨了声学模型和语言模型单元对ASR系统的影响。

Shrutilipi数据集包含哪些内容?

Shrutilipi数据集包含来自12种印度语言的6,400小时语音和4.95M句子,旨在提高模型的准确性。

Vistaar基准的目的是什么?

Vistaar基准用于评估和改进多个ASR系统,显著改善了考虑的ASR系统表现。

INDICVOICES数据集的特点是什么?

INDICVOICES数据集涵盖145个印度地区和22种语言,包含7348小时自然和自发的语音。

如何评估ASR模型在印度口音上的表现?

通过创建Svarah基准测试数据集,评估来自117位说话者的9.6小时语音数据,发现改进空间。

IndicASR模型的创新之处是什么?

IndicASR是第一个支持印度宪法第八版中列出的22种语言的ASR模型,旨在提升多语言识别能力。

➡️

继续阅读