本研究解决了梵语数字内容稀缺及自然语言处理工具缺乏的问题。通过使用OpenAI的Whisper模型进行迁移学习,优化超参数,研究小组成功开发了一个自动语音识别模型,获得了15.42%的词错误率。该模型的在线演示可供公众使用,推动了梵语学习的现代化和技术支持。
本文首次大规模研究梵语自动语音识别(ASR),发布了78小时的数据集,探讨声学和语言模型单元的影响。研究还涉及印度英语口音的ASR系统,创建了包含12种语言的Shrutilipi数据集,以提升模型准确性。此外,提出了Vistaar基准和Svarah测试数据集,评估印度口音的ASR表现,并发布了支持22种语言的INDICVOICES数据集。所有数据和工具将公开。
本文探讨了梵文文本的手动注释及其知识图谱的构建,涵盖410个实体和764个关系。研究了梵语自然语言处理中的挑战,并提出了SanskritShala工具包,包含词分割和依存分析等模块,以提升梵文的可用性和分析能力。
作者成功获得澳大利亚永居签证,成为澳国立大学的博士后。他计划在完成现有工作计划后,开展自己对梵语和计算机相关研究的计划。他希望努力工作,积累学术成果和养老金,但没有定居或移民计划,愿意随时回国工作。
完成下面两步后,将自动完成登录并继续当前操作。