视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

💡 原文中文,约4500字,阅读约需11分钟。
📝

内容提要

本文提出了AdvDiffVLM,一种高效生成视觉语言模型对抗样本的方法。通过扩散模型和自适应集成梯度估计,生成自然且针对性的对抗样本,显著提升了迁移性和质量。实验结果表明,该方法速度提高5至10倍,效果优于现有技术。

🎯

关键要点

  • AdvDiffVLM是一种高效生成视觉语言模型对抗样本的方法。
  • 该方法通过扩散模型和自适应集成梯度估计生成自然且针对性的对抗样本。
  • AdvDiffVLM显著提升了对抗样本的迁移性和质量。
  • 实验结果显示,该方法速度提高5至10倍,效果优于现有技术。
  • 对抗攻击用于评估大型视觉语言模型的对抗鲁棒性,现有方法存在高成本和低迁移性的问题。
  • AdvDiffVLM利用得分匹配生成自然、无约束的对抗样本,提升了对抗样本的质量。
  • 引入GradCAM引导的掩模生成模块,分散对抗语义,提高整体图像质量。
  • AdvDiffVLM在黑箱环境中成功攻击多种商用视觉语言模型,包括GPT-4V。
  • 与传统方法相比,AdvDiffVLM在攻击能力、迁移能力和生成速度方面表现更佳。
  • 防御实验表明,AdvDiffVLM在抵抗数据预处理攻击方面优于基准方法。
  • 对抗样本的图像质量评估显示,AdvDiffVLM生成的对抗样本在多个指标上优于基准方法。
➡️

继续阅读