小红花·文摘

通过元评估发现，引用自由度量在评估非英文翻译质量时滞后于引用依赖度量。结合上下文信息与神经学习度量可以提高自由度量与人类判断的相关性，以及在评估非英文翻译时的性能。提出了一种新的评估度量方法Context-MQM，并验证了添加上下文对基于大型语言模型的评估度量也是有帮助的。