xCOMET: 透明的机器翻译评估通过精细化错误检测
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了自动机器翻译度量在句子级别中区分好的翻译和坏的翻译的可靠性,并在三个下游跨语言任务上评估了最广泛使用的MT度量的段落级别性能。作者建议将来的MT指标应该被设计成产生错误标签而不是得分,以便于外在评估。
🎯
关键要点
- 研究自动机器翻译度量在句子级别区分好的翻译和坏的翻译的可靠性。
- 评估MT度量在三个下游跨语言任务中的段落级别性能。
- 实验表明,所有度量标准与下游结果的内在评估相关性微不足道。
- 神经度量提供的分数大多数不可解释,值域未定义。
- 建议未来的MT指标应设计为产生错误标签而非得分,以便于外在评估。
➡️