TASER是一种利用大型推理模型进行自动翻译质量评估的指标,展示了在WMT24指标共享任务中的优越性能,尤其在非参考方法中排名第一。研究表明,结构化提示模板在LRMs中效果更佳,提升了可解释性和透明度,推动了翻译质量评估的进步。
本文探讨了上下文信息在机器翻译和对话系统中的重要性。研究表明,结合上下文与神经学习度量可以提高翻译质量评估的相关性,并提出了一种新的评估方法Context-MQM。此外,开发的对话扩充模型在生成高质量对话方面表现优异,提升了对话成功率,强调了上下文在文本分类和对话生成中的关键作用。
该文介绍了基于GPT的翻译质量评估指标GEMBA,可用于有参照和无参照情况。研究了四个提示变体,并比较了两种方式下的性能表现,发现只能应用于GPT 3.5及以上的模型。在WMT22的Leaderboard中,GEMBA在三种语言对中表现出先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。