BriefGPT - AI 论文速递 ·

任何目标均可成为攻击：通过广义潜在感染生成对抗性样本

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

本文提出了一种通用框架，通过学习图像与目标标签的关系生成对抗性扰动。研究展示了多种生成对抗网络（GAN）方法，如AdvGAN和MalGAN，提升了对抗样本的生成效率和攻击成功率，并提出了Defense-GAN等防御策略，有效抵御对抗性攻击。

🎯

❓

该框架通过学习输入图像与目标标签的关系生成对抗性扰动，旨在提高攻击成功率和生成效率。

AdvGAN能够高效生成高感知质量的对抗样本，在黑盒攻击中取得92.76%的成功率。

Defense-GAN使用生成模型抵御对抗性攻击，适用于任何分类模型，无需修改结构或训练过程。

MalGAN能够将检测率降至几乎为零，使基于重新训练的防御方法难以奏效。

Latent-HSJA方法适用于黑盒设置的分类模型评估，能够生成无约束对抗样本。

无限制敌对样本通过条件生成模型生成可能被误分类的图像，证明其属于特定类别。

🏷️