本文介绍了RELATE平台的设计与演变,旨在满足罗马尼亚语自然语言处理的高性能需求,支持文本和音频处理,展示了在国家和国际研究项目中的应用,强调双模态功能,展现了现代化平台的潜力。
本研究首次提出了一种神经机器翻译系统,填补了阿罗马尼亚语翻译的空白,并发布了最大的阿罗马尼亚语-罗马尼亚语双语语料库,推动低资源语言的翻译技术发展。
本研究针对罗马尼亚语表情包数据不足的问题,创建了一个多模态表情包数据集,并进行了详细注释。实验表明,AI工具在处理表情包方面仍需改进,强调了该数据集的实用性和未来研究的重要性。
本文研究了使用乌克兰推文的伪标记敏感数据的方法,并重点关注俄乌战争相关主题。通过实验,突出了数据标注的三个主要阶段,并对获得的数据进行了基础统计分析和模型评估。提供了进一步指导,以便科学家能在不涉及标注人员的情况下利用语料库进行更高级的研究和扩展现有数据样本。
Dolma是一个英文语料库,包含各种网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料,共有三万亿个标记。作者还开源了数据整理工具包,并分享了对重要数据整理实践的了解。Dolma已被用于训练OLMo,这是一个用于构建和研究语言建模科学的最先进的开放式语言模型和框架。
本研究使用大型语言模型评估了Llama2在机器翻译方面的能力,发现其对已见过的语言具有较高的BLEU分数。研究结果表明句法相似性并非决定翻译质量的主要因素,同时发现某些语言虽然训练数据较少,但与英语具有可比较的相关性,为构建以非英语语言为中心的多语言模型提供了新的可能性。
本研究使用16,000个泰米尔语令牌增强了开源的LLaMA模型,解决了现有切尖模型中泰米尔语等语种的代表性不足所导致的性能不佳问题。通过LoRA方法进行高效的模型训练,并引入了泰米尔语翻译版本的Alpaca数据集和用于微调的OpenOrca数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对印度语言切尖模型的应用具有重要意义。通过公开模型、数据集和代码,促进语言建模领域的创新。
本研究评估了使用Google Translate翻译心理保健信息的可行性,发现GT在翻译医学术语方面存在挑战,特别是在阿拉伯语、罗马尼亚语和波斯语中。研究结果强调了人工审核者在多语种医疗保健交流中的关键作用。
本文研究了自动语义变化方法,通过分析词语在历时语料库中的使用来识别其含义随时间的变化。实验结果表明,选择模型和计算语义变化得分的距离方面取决于语料库是最重要的因素。
完成下面两步后,将自动完成登录并继续当前操作。