本研究评估了机器翻译评估指标在对抗性合成文本上的性能,并发现了脆弱性模式。实验结果显示自动指标过度惩罚对抗性降级翻译且评级不一致。研究结果有助于推动更稳健的指标开发。
该研究探讨了机器翻译评估指标在对抗性合成文本上的性能,发现自动指标过度惩罚对抗性降级翻译,BERTScore评级不一致,推动更稳健的指标开发。
完成下面两步后,将自动完成登录并继续当前操作。