在段落级别上训练和元评估机器翻译评估指标
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了自动机器翻译度量在句子级别中区分好坏翻译的可靠性,并研究了在大平台中放置机器翻译组件的成功率检测中MT度量的有用性。通过评估最广泛使用的MT度量在三个跨语言任务上的性能,发现度量标准与下游结果的相关性微不足道。神经度量提供的分数大多数不可解释。分析表明,将来的MT指标应设计成产生错误标签而不是得分,以便于外在评估。
🎯
关键要点
- 研究自动机器翻译度量在句子级别区分翻译质量的可靠性。
- 探讨机器翻译组件在大平台中成功率检测中MT度量的有用性。
- 评估最广泛使用的MT度量在三个跨语言任务上的性能。
- 发现度量标准与下游结果的相关性微不足道。
- 神经度量提供的分数大多数不可解释,值域未定义。
- 建议未来的MT指标应设计为产生错误标签而非得分,以便于外在评估。
➡️