本文介绍了RELATE平台的设计与演变,旨在满足罗马尼亚语自然语言处理的高性能需求,支持文本和音频处理,展示了在国家和国际研究项目中的应用,强调双模态功能,展现了现代化平台的潜力。
本研究首次提出了一种神经机器翻译系统,填补了阿罗马尼亚语翻译的空白,并发布了最大的阿罗马尼亚语-罗马尼亚语双语语料库,推动低资源语言的翻译技术发展。
本研究针对罗马尼亚语表情包数据不足的问题,创建了一个多模态表情包数据集,并进行了详细注释。实验表明,AI工具在处理表情包方面仍需改进,强调了该数据集的实用性和未来研究的重要性。
本文探讨了社交媒体中检测和分类性别歧视及冒犯性语言的方法,采用多种预训练模型和数据增强技术。研究表明,半监督学习能显著提高模型性能,尤其在资源匮乏的语言环境中,强调跨文化学习对改善攻击性语言检测的重要性。
本文介绍了多个语言模型的开发与应用,包括罗马尼亚的BERT和RoBERTweet,强调了它们在自然语言处理任务中的优越表现。同时提到了一些大型语料库的构建与使用,如Dolma和CLUECorpus2020,旨在推动低资源语言的研究与应用。
近年来,大型语言模型(LLMs)在多语言处理上取得了显著进展,尤其是在罗马尼亚语的模型训练和评估方面。尽管多语言模型在多种任务上表现良好,但在低资源语言上仍存在性能差距。通过分析训练策略和数据可用性,推动了LLMs在自然语言处理中的应用,特别是非英语语言的模型开发。
本研究评估了Llama2在机器翻译中的能力,发现其对已见语言表现良好,但对未见语言效果不佳。分析表明,句法相似性不是翻译质量的主要因素。研究提出了以非英语语言为中心构建多语言模型的可能性,并强调在低资源环境下提升语言模型表现的策略。
本研究评估了使用Google Translate翻译心理保健信息的可行性,发现GT在翻译医学术语方面存在挑战,特别是在阿拉伯语、罗马尼亚语和波斯语中。研究结果强调了人工审核者在多语种医疗保健交流中的关键作用。
本文研究了自动语义变化方法,通过分析词语在历时语料库中的使用来识别其含义随时间的变化。实验结果表明,选择模型和计算语义变化得分的距离方面取决于语料库是最重要的因素。
完成下面两步后,将自动完成登录并继续当前操作。