自动机器翻译度量指标的鲁棒性测试与对抗攻击
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究探讨了机器翻译评估指标在对抗性合成文本上的性能,发现自动指标过度惩罚对抗性降级翻译,BERTScore评级不一致,推动更稳健的指标开发。
🎯
关键要点
- 该研究探讨了机器翻译评估指标在对抗性合成文本上的性能。
- 研究了三个流行的机器翻译指标:BERTScore、BLEURT 和 COMET。
- 实验表明,自动指标倾向于过度惩罚对抗性降级翻译。
- 发现 BERTScore 评级存在不一致性。
- BERTScore 在判断原始句子和对抗性降级句子相似时,降级翻译被评判为明显更差。
- 确定了一些脆弱性模式,推动更稳健的指标开发。
🏷️
标签
➡️