本文首次大规模研究梵语自动语音识别(ASR),发布了78小时的数据集,探讨声学和语言模型单元的影响。研究还涉及印度英语口音的ASR系统,创建了包含12种语言的Shrutilipi数据集,以提升模型准确性。此外,提出了Vistaar基准和Svarah测试数据集,评估印度口音的ASR表现,并发布了支持22种语言的INDICVOICES数据集。所有数据和工具将公开。
本研究开发了一种适用于印度英语口音的语音识别系统,采用转移学习和数据增强技术,并与其他服务进行了比较。同时,探讨了梵语和孟加拉语的自动语音识别性能,分析了不同声学模型的影响,并提出了优化低资源语言识别的策略。
完成下面两步后,将自动完成登录并继续当前操作。