本研究评估了生成性人工智能模型在尼泊尔语命名实体识别中的表现,探讨了低资源环境下的挑战与机遇,为自然语言处理领域提供了重要贡献。
本研究探讨了尼泊尔语低资源环境中持续学习的挑战,使用合成数据训练Llama 3 8B模型,结果显示样本数量增加使模型性能提升19.29%,展现了知识保持的潜力。
本研究针对尼泊尔语自动语音识别(ASR)模型的不足,提出了一个全面的数据集,并对OpenAI Whisper模型进行了微调,显著降低了字错误率,强调了数据集质量在小语种ASR系统中的重要性。
本文介绍了一个语音合成系统的开发,用于LIMMITS'24挑战赛,目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统。系统使用挑战数据进行训练,并对目标发言人进行少样本语音克隆微调。评估包括对七种语言进行主观测试,评估自然度和发言人相似性。系统使用了VITS2架构,结合多语言ID和BERT模型来增强上下文语言理解。在第一阶段,模型的发言人相似性得分为4.02,在允许使用额外数据的第二阶段,得分为4.17。
该研究提出了一种孟加拉语OCR系统,能够准确提取文本并重建文档布局。该系统适应多种文档类型,包括计算机排版、凸版印刷、打字机和手写文档,并能处理静态和动态手写输入。该系统还能识别孟加拉语中的复合字符,并具有图像、标志、签名和表格识别等额外功能。
本研究使用深度神经网络生成尼泊尔视频的精确字幕,最佳模型为EfficientNetB0+BiLSTM,BLEU-4分数为17,METEOR分数为46。本文还概述了尼泊尔视频字幕生成的挑战和未来发展方向。
完成下面两步后,将自动完成登录并继续当前操作。