引入NewsPaLM MBR和QE数据集:LLM生成的高质量平行数据优于传统网络爬取数据
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对神经机器翻译(NMT)中高质量数据的缺乏问题,通过首个发布的LLM生成、MBR解码和QE重排序的数据集进行了探索。研究表明,基于该机器生成数据集的模型训练性能优于传统的网络爬取数据,证明了高质量机器生成数据在提升NMT模型性能方面的重要价值。
神经机器翻译(NMT)面临领域不匹配、平行数据量、罕见词预测、长句翻译、注意力模型和次优束搜索等六个核心挑战。研究发现,高级大型语言模型(LLMs)在预训练阶段减少对平行数据的依赖,提高长句翻译和文档翻译能力。然而,领域不匹配和罕见词预测仍然是挑战。此外,LLMs在翻译任务中面临推理效率、低资源语言翻译和人对齐评估等新挑战。