自动机器翻译度量指标的鲁棒性测试与对抗攻击

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究探讨了机器翻译评估指标在对抗性合成文本上的性能,发现自动指标过度惩罚对抗性降级翻译,BERTScore评级不一致,推动更稳健的指标开发。

🎯

关键要点

  • 该研究探讨了机器翻译评估指标在对抗性合成文本上的性能。
  • 研究了三个流行的机器翻译指标:BERTScore、BLEURT 和 COMET。
  • 实验表明,自动指标倾向于过度惩罚对抗性降级翻译。
  • 发现 BERTScore 评级存在不一致性。
  • BERTScore 在判断原始句子和对抗性降级句子相似时,降级翻译被评判为明显更差。
  • 确定了一些脆弱性模式,推动更稳健的指标开发。
➡️

继续阅读