小红花·文摘

文章介绍了一个涵盖146种语言对的挑战集ACES，用于评估翻译错误识别能力。通过对WMT 2022和2023的50个度量进行测试，发现不同度量在不同语言现象上表现不佳，尤其是基于大型语言模型的方法。扩展的SPAN-ACES数据集用于评估基于跨度的错误度量，结果显示仍需改进。文章建议构建更好的机器翻译度量，包括专注错误标签、融合多种度量、设计专注源句的策略、关注语义内容，并选择合适模型。