本文介绍了ACES对比挑战集,用于评估翻译准确性的度量标准。测试了50个度量标准,发现它们在不同的语言现象上存在困难。扩展了ACES以包括错误跨度注释,并评估了基于跨度的错误度量。最后,提供了构建更好的机器翻译度量标准的建议。
完成下面两步后,将自动完成登录并继续当前操作。