任何目标均可成为攻击:通过广义潜在感染生成对抗性样本

💡 原文中文,约1200字,阅读约需3分钟。
📝

内容提要

本文提出了一种通用框架,通过学习图像与目标标签的关系生成对抗性扰动。研究展示了多种生成对抗网络(GAN)方法,如AdvGAN和MalGAN,提升了对抗样本的生成效率和攻击成功率,并提出了Defense-GAN等防御策略,有效抵御对抗性攻击。

🎯

关键要点

  • 提出了一种通用框架,通过学习输入图像与目标标签的关系生成对抗性扰动。
  • 在MNIST和CIFAR10数据集上进行实验,展示了该方法在单目标攻击模型上的优异性能。
  • 引入Attack-Inspired GAN,通过联合训练生成器、鉴别器和攻击器,提高攻击成功率并减少生成时间。
  • 提出Latent-HSJA方法,利用GAN生成无约束对抗样本,适用于黑盒设置的分类模型评估。
  • Defense-GAN使用生成模型抵御对抗性攻击,适用于任何分类模型,无需修改结构或训练过程。
  • AdvGAN能够高效生成高感知质量的对抗样本,在黑盒攻击中取得92.76%的成功率。
  • MalGAN生成对手样本,能够绕过基于黑盒机器学习的检测模型,降低检测率至几乎为零。
  • 提出无限制敌对样本的威胁模型,利用AC-GAN生成可能被误分类的图像,证明其属于特定类别。
  • 研究在变分自编码器和VAE-GAN中生成对抗性样本的方法,并提出三种攻击方式进行测试。

延伸问答

什么是广义潜在感染生成对抗性样本的框架?

该框架通过学习输入图像与目标标签的关系生成对抗性扰动,旨在提高攻击成功率和生成效率。

AdvGAN的主要特点是什么?

AdvGAN能够高效生成高感知质量的对抗样本,在黑盒攻击中取得92.76%的成功率。

Defense-GAN是如何抵御对抗性攻击的?

Defense-GAN使用生成模型抵御对抗性攻击,适用于任何分类模型,无需修改结构或训练过程。

MalGAN与传统对抗样本生成算法相比有什么优势?

MalGAN能够将检测率降至几乎为零,使基于重新训练的防御方法难以奏效。

Latent-HSJA方法的应用场景是什么?

Latent-HSJA方法适用于黑盒设置的分类模型评估,能够生成无约束对抗样本。

无限制敌对样本的威胁模型是什么?

无限制敌对样本通过条件生成模型生成可能被误分类的图像,证明其属于特定类别。

➡️

继续阅读