错误中蕴藏着魔鬼的力量:利用大型语言模型进行细粒度机器翻译评估
原文约300字/词,阅读约需1分钟。发表于: 。自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具,本文在已有单一评分指标的基础上提出 AutoMQM,一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型 PaLM 和 PaLM-2,通过简单的得分预测提示,发现 AutoMQM 在 PaLM-2 模型上优于仅提示得分的性能,并能提供与人工注释相一致的错误范围,具有解释性。
本研究探讨了在非平行语料库上训练的大型语言模型在语言翻译方面的能力,特别关注了Pathways语言模型。研究发现翻译示例的质量是最重要的因素。通过优化提示,重新评估了PaLM的机器翻译性能,发现其仍然落后于最先进的监督系统。最后,提供了PaLM的机器翻译输出分析和未来工作的前景。