本研究评估了生成性人工智能模型在尼泊尔语命名实体识别中的表现,探讨了低资源环境下的挑战与机遇,为自然语言处理领域提供了重要贡献。
本研究探讨了尼泊尔语低资源环境中持续学习的挑战,使用合成数据训练Llama 3 8B模型,结果显示样本数量增加使模型性能提升19.29%,展现了知识保持的潜力。
本研究针对尼泊尔语自动语音识别(ASR)模型的不足,提出了一个全面的数据集,并对OpenAI Whisper模型进行了微调,显著降低了字错误率,强调了数据集质量在小语种ASR系统中的重要性。
本文介绍了一种适用于低资源环境的基于神经网络的语音克隆系统。该系统通过多说话人和多语言合成,能够在少量音频样本下实现高自然度和相似度的语音合成。同时,研究探讨了迁移学习在少样本语音克隆中的应用,预测未来定制化TTS模型将更为普遍。
本文介绍了Bengali.AI-BRACU-OCR(bbOCR),一种开源的孟加拉语文档光学字符识别系统,能够将文档转化为可搜索的数字格式。该系统在文档布局重建、字符识别和多样化文档类型处理方面表现优异,支持静态和动态手写输入,识别复合字符,提升文本提取和分析效率。
本研究使用深度神经网络生成尼泊尔视频的精确字幕,最佳模型为EfficientNetB0+BiLSTM,BLEU-4分数为17,METEOR分数为46。本文还概述了尼泊尔视频字幕生成的挑战和未来发展方向。
完成下面两步后,将自动完成登录并继续当前操作。