小红花·文摘

本文提出了AdvDiffVLM方法，改善传统的迁移攻击方法。该方法利用扩散模型和自适应集成梯度估计，提高了传统方法的缺陷，并通过GradCAM-guided Mask方法提高了样本质量。实验结果显示，AdvDiffVLM方法速度快且对抗样本质量高，具有强大的迁移性和抗性。成功攻击了GPT-4V等大型视觉语言模型。