评估方言机器翻译度量的基准(无标准拼写法)
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究评估了机器翻译评估指标在对抗性合成文本上的性能,并发现了脆弱性模式。实验结果显示自动指标过度惩罚对抗性降级翻译且评级不一致。研究结果有助于推动更稳健的指标开发。
🎯
关键要点
- 本研究评估了机器翻译评估指标在对抗性合成文本上的性能。
- 实验对三个流行的机器翻译指标(BERTScore、BLEURT 和 COMET)进行了攻击实验。
- 自动指标倾向于过度惩罚对抗性降级翻译,导致评级不一致。
- BERTScore 在判断原始句子和对抗性降级句子相似时表现出不一致性。
- 研究结果有助于推动更稳健的机器翻译评估指标的开发。
➡️