对奖励机器强化学习的对抗性攻击
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文通过强化学习生成对抗性样本,探究了神经机器翻译系统的失败情况,并对两种主流架构进行了敌对攻击实验。结果显示该方法能有效生成稳定的攻击和有保留含义的对抗性样本,并展示了攻击偏好模式的定性和定量分析,证明了该方法能暴露系统的缺陷。
🎯
关键要点
-
通过强化学习生成对抗性样本,探究神经机器翻译系统的失败情况。
-
对两种主流架构RNN-search和Transformer进行了敌对攻击实验。
-
方法有效生成稳定的攻击和有保留含义的对抗性样本。
-
展示了攻击偏好模式的定性和定量分析。
-
证明该方法能够暴露神经翻译系统的缺陷。
🏷️