该文研究了使用ACES Challenge Set作为评估标准对WMT 2023的分段级别指标进行基准测试,没有明显的优胜者,建议开发者构建来自不同设计家族的指标集合,并仔细确定多语言嵌入对机器翻译评估的影响。
完成下面两步后,将自动完成登录并继续当前操作。