小红花·文摘

本研究解决了梵语数字内容稀缺及自然语言处理工具缺乏的问题。通过使用OpenAI的Whisper模型进行迁移学习，优化超参数，研究小组成功开发了一个自动语音识别模型，获得了15.42%的词错误率。该模型的在线演示可供公众使用，推动了梵语学习的现代化和技术支持。

基于迁移学习的梵语自动语音识别

BriefGPT - AI 论文速递 ·

本文首次大规模研究梵语自动语音识别（ASR），发布了78小时的数据集，探讨声学和语言模型单元的影响。研究还涉及印度英语口音的ASR系统，创建了包含12种语言的Shrutilipi数据集，以提升模型准确性。此外，提出了Vistaar基准和Svarah测试数据集，评估印度口音的ASR表现，并发布了支持22种语言的INDICVOICES数据集。所有数据和工具将公开。

LAHAJA：评估印地语自动语音识别系统的多口音基准

BriefGPT - AI 论文速递 ·

本文探讨了梵文文本的手动注释及其知识图谱的构建，涵盖410个实体和764个关系。研究了梵语自然语言处理中的挑战，并提出了SanskritShala工具包，包含词分割和依存分析等模块，以提升梵文的可用性和分析能力。

基于梵语知识的系统：注释和计算工具

BriefGPT - AI 论文速递 ·

冰河年鉴 2023

A Lisper ·