机器之心 ·

视觉语言模型易受攻击？西安交大等提出基于扩散模型的对抗样本生成新方法

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

本文提出了AdvDiffVLM，一种高效生成视觉语言模型对抗样本的方法。通过扩散模型和自适应集成梯度估计，生成自然且针对性的对抗样本，显著提升了迁移性和质量。实验结果表明，该方法速度提高5至10倍，效果优于现有技术。

🎯

🔎

AdvDiffVLM方法通过扩散模型和自适应集成梯度估计，显著提高了对抗样本的生成速度和质量。这一进展使得在实际应用中，评估视觉语言模型的鲁棒性变得更加高效，尤其是在需要快速反馈的场景中，如自动驾驶和内容审核等领域。

AdvDiffVLM在黑箱环境中成功攻击多种商用视觉语言模型，显示出其在对抗攻击中的潜力。然而，黑箱攻击的复杂性和不确定性仍然是一个挑战，研究者需关注不同模型对对抗样本的敏感性，以优化攻击策略和提升模型的安全性。

生成对抗样本的图像质量直接影响其有效性。AdvDiffVLM在多个指标上优于基准方法，表明其生成的对抗样本在视觉上更自然。这一特性不仅有助于提高攻击成功率，也为后续的防御机制设计提供了重要参考。

❓

AdvDiffVLM是一种高效生成视觉语言模型对抗样本的方法，能够生成自然且针对性的对抗样本。

AdvDiffVLM通过引入GradCAM引导的掩模生成模块，将对抗语义分散到整个图像中，从而提高对抗样本的质量。

AdvDiffVLM的生成速度提高了5至10倍，显著优于现有的对抗样本生成技术。

AdvDiffVLM能够在黑箱环境中成功攻击多种商用视觉语言模型，包括GPT-4V。

AEGE用于在扩散模型的反向生成过程中调整得分，确保生成的对抗样本具备自然的针对性对抗语义。

在防御实验中，AdvDiffVLM在抵抗数据预处理攻击方面优于基准方法，显示出更强的防御能力。

🏷️