面向大型语言模型驱动的无参考翻译评估方法:英语和印度语言

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究评估大型语言模型对自动无参考翻译评估的有效性,并通过模拟人类直接评估的实验来评估英语和印度语言译文的质量。发现基于大型语言模型的评估器在考虑的印度语言对上实现了相当或更高的整体相关性与人类判断。

🎯

关键要点

  • 本研究评估大型语言模型在自动无参考翻译评估中的有效性。
  • 通过模拟人类直接评估的实验,评估英语和印度语言的译文质量。
  • 构建翻译评估任务,采用零样本学习、上下文示例驱动学习和大型语言模型微调。
  • 提供一个0到100的分数,100表示完美翻译,1表示糟糕翻译。
  • 将训练的系统与现有方法(如COMET、BERT-Scorer和LABSE)进行比较。
  • 基于大型语言模型的评估器(LLaMA-2-13B)在印度语言对上实现了与人类判断相当或更高的整体相关性。
➡️

继续阅读