BriefGPT - AI 论文速递 ·

LAHAJA：评估印地语自动语音识别系统的多口音基准

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文首次大规模研究梵语自动语音识别（ASR），发布了78小时的数据集，探讨声学和语言模型单元的影响。研究还涉及印度英语口音的ASR系统，创建了包含12种语言的Shrutilipi数据集，以提升模型准确性。此外，提出了Vistaar基准和Svarah测试数据集，评估印度口音的ASR表现，并发布了支持22种语言的INDICVOICES数据集。所有数据和工具将公开。

🎯

关键要点

本文首次大规模研究梵语自动语音识别（ASR），发布了78小时的梵语ASR数据集。
研究探讨了不同声学模型和语言模型单元在ASR系统中的角色，强调选择语文文字表示对词错误率的影响。
创建了Shrutilipi数据集，包含来自12种印度语言的6,400小时语音和4.95M句子，提升了模型准确性。
提出了Vistaar基准，用于评估和改进多个ASR系统，显著改善了考虑的ASR系统表现。
创建了Svarah基准测试数据集，评估ASR模型在印度口音上的表现，发现改进空间。
发布了INDICVOICES数据集，涵盖145个印度地区和22种语言，包含7348小时自然和自发的语音。
构建了IndicASR，这是第一个支持印度宪法第八版中列出的22种语言的ASR模型，所有数据和工具将公开提供。

❓

延伸问答

梵语自动语音识别（ASR）研究的主要发现是什么？

研究首次发布了78小时的梵语ASR数据集，并探讨了声学模型和语言模型单元对ASR系统的影响。

Shrutilipi数据集包含哪些内容？

Shrutilipi数据集包含来自12种印度语言的6,400小时语音和4.95M句子，旨在提高模型的准确性。

Vistaar基准的目的是什么？

Vistaar基准用于评估和改进多个ASR系统，显著改善了考虑的ASR系统表现。

INDICVOICES数据集的特点是什么？

INDICVOICES数据集涵盖145个印度地区和22种语言，包含7348小时自然和自发的语音。

如何评估ASR模型在印度口音上的表现？

通过创建Svarah基准测试数据集，评估来自117位说话者的9.6小时语音数据，发现改进空间。

IndicASR模型的创新之处是什么？

IndicASR是第一个支持印度宪法第八版中列出的22种语言的ASR模型，旨在提升多语言识别能力。

🏷️