BriefGPT - AI 论文速递 ·

补丁足以：针对视觉语言预训练模型的自然对抗补丁

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

本研究针对视觉-语言预训练模型的鲁棒性问题，提出了协作多模态对抗攻击和CMI-Attack等新型对抗攻击方法，显著提高了对不同模型的攻击成功率。研究表明模态交互在增强对抗鲁棒性方面的重要性，为视觉-语言模型的安全部署提供了新视角。

🎯

🔎

研究表明，模态交互在提升视觉-语言预训练模型的对抗鲁棒性方面起着关键作用。通过有效利用模态间的相互作用，可以显著提高对抗攻击的成功率，这为未来的模型设计提供了新的思路。

本文提出的多种对抗攻击方法，如CMI-Attack和SGA，展示了在不同视觉-语言模型上的优越性能。这些方法不仅提高了攻击成功率，还揭示了现有模型在对抗性传递性方面的不足，提示研究者在模型安全性设计时需关注这些盲点。

SmoothVLM防御机制的成功应用，表明在视觉-语言模型中降低对抗性提示注入的攻击率是可行的。这一进展为模型的安全部署提供了新的保障，强调了在设计模型时需同时考虑攻击和防御策略。

❓

协作多模态对抗攻击（Co-Attack）是一种新型攻击方法，旨在提高视觉-语言预训练模型的鲁棒性，增强对不同下游任务的攻击性能。

CMI-Attack利用模态交互机制，在保持语义不变的情况下，通过增强文本和图像的扰动约束，提高了图像-文本检索任务中的转移成功率。

通过模态交互和多模态对抗性示例的多样性扩展，可以显著提高视觉-语言预训练模型的对抗鲁棒性。

SmoothVLM防御机制旨在降低视觉-语言模型中的补丁式对抗性提示注入的攻击率，同时提高上下文恢复率。

SGA方法通过充分利用模态交互，显著提高了对不同视觉-语言预训练模型的攻击成功率，提升了对抗性传递性。

JMTFA方法在白盒环境下同时针对视觉和文本模态引入对抗扰动，显著提高了对抗攻击的成功率，并揭示了文本模态对模型的影响。

🏷️