小红花·文摘

本文研究了自动机器翻译度量在句子级别中区分好的翻译和坏的翻译的可靠性，并在三个下游跨语言任务上评估了最广泛使用的MT度量的段落级别性能。作者建议将来的MT指标应该被设计成产生错误标签而不是得分，以便于外在评估。