本研究开发了一种机器翻译模型,将英文医学手册翻译为索拉尼库尔德语,以解决库尔德语医学手册的缺乏问题。通过对319份手册的平行语料库进行评估,翻译的准确性和清晰度得到了积极评价。
本研究探讨了如何将文化知识融入大型语言模型(LLMs)的机器翻译中,提出了新的数据筛选和提示策略,构建文化相关的平行语料库。实验结果表明,CultureLLM在文化特定翻译上优于传统系统,并在多语言能力和文化适应性方面表现出色,强调了改进LLMs以应对文化差异的重要性。
本文介绍了英日平行语料库JParaCrawl的构建及其在机器翻译中的应用,强调了在特定领域的预训练和微调效果。实验结果表明,该语料库显著提高了翻译准确性,并展示了新方法在数据过滤和句子对齐中的优势,推动了跨语言NLP研究的发展。
本文探讨了针对印度尼西亚及其他低资源语言的自然语言处理研究,开发了平行语料库和多任务基准,分析了翻译系统的实用策略,旨在提升这些语言的研究和应用。同时,研究还关注数据稀缺问题,并提出众包方法以增强资源收集。
本文介绍了多个平行语料库的构建与应用,如波斯语-英语、英日、车臣语-俄语,强调其在机器翻译中的重要性和效果。研究表明,这些语料库能显著提高翻译质量和效率。
该研究提出了一种新的无监督方法,使用单语数据来获得跨语言句子嵌入,产生合成平行语料库,并使用预训练的跨语言掩码语言模型对其进行微调以得到多语言句子表示。结果表明,该方法可以比基准模型获得高达22个F1点的改进,并且单个合成的双语语料库能够改善其他语言对的结果。
完成下面两步后,将自动完成登录并继续当前操作。