对奖励机器强化学习的对抗性攻击

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文通过强化学习生成对抗性样本,探究了神经机器翻译系统的失败情况,并对两种主流架构进行了敌对攻击实验。结果显示该方法能有效生成稳定的攻击和有保留含义的对抗性样本,并展示了攻击偏好模式的定性和定量分析,证明了该方法能暴露系统的缺陷。

🎯

关键要点

  • 通过强化学习生成对抗性样本,探究神经机器翻译系统的失败情况。
  • 对两种主流架构RNN-search和Transformer进行了敌对攻击实验。
  • 方法有效生成稳定的攻击和有保留含义的对抗性样本。
  • 展示了攻击偏好模式的定性和定量分析。
  • 证明该方法能够暴露神经翻译系统的缺陷。
➡️

继续阅读