本文介绍了一种新方法,通过结合人工评估和自动度量,降低机器翻译中获取和评估人类偏好的成本。通过语言学家评估翻译质量,创建了包含18,000个实例的数据集MT-Pref。研究表明,在MT-Pref上进行模型对齐显著提升了WMT23和FLORES基准的翻译质量。
通过元评估发现,引用自由度量在评估非英文翻译质量时滞后于引用依赖度量。结合上下文信息与神经学习度量可以提高自由度量与人类判断的相关性,以及在评估非英文翻译时的性能。提出了一种新的评估度量方法Context-MQM,并验证了添加上下文对基于大型语言模型的评估度量也是有帮助的。
完成下面两步后,将自动完成登录并继续当前操作。