关于单模型和视觉语言预训练模型之间对抗漏洞的统一理解
💡
原文中文,约1800字,阅读约需5分钟。
📝
内容提要
本文研究了视觉语言预训练模型(VLP)的对抗性,提出了集合级引导攻击(SGA)和协作多模态对抗攻击(Co-Attack)等新型攻击方法,显著提高了攻击成功率。实验结果表明,模态交互在增强对抗鲁棒性方面至关重要,揭示了VLP模型的脆弱性及其在实际应用中的安全隐患。
🎯
关键要点
- 研究了视觉语言预训练模型(VLP)的对抗性传递性,发现现有方法表现较低,主要由于跨模态交互利用不足。
- 提出了集合级引导攻击(SGA)方法,利用模态交互,显著提高了攻击成功率,成功率提升至少9.78%,最高可达30.21%。
- 提出了VLAttack框架,通过融合单模态和多模态扰动生成对抗样本,揭示了预训练VLP模型部署中的重要盲点。
- 展示了VLP模型对新型通用对抗扰动(UAP)攻击的脆弱性,并提出基于多模态对齐的对抗扰动生成方法,表现出卓越的攻击性能。
- 提出了协作多模态对抗攻击(Co-Attack)方法,以提高对不同视觉语言下游任务和VLP模型的攻击性能。
- 通过综合性策略同时攻击文本和图像模态,成功率达到96%,突显了视觉语言模型的脆弱性和对新对齐策略的需求。
- 引入多模态对抗性攻击策略,提高了CLIP模型的对抗性鲁棒性,实验表明该方法在多个数据集上显著提升了鲁棒性。
- 提出CMI-Attack方法,利用模态交互机制增强对抗攻击的效果,在图像-文本检索任务中提高了转移成功率。
- 评估开源大型视觉语言模型的鲁棒性,发现黑盒查询可以提高定向逃避效果,呼吁对潜在安全漏洞进行更全面的研究。
- 总结现有研究,提出基于自我增强的转移攻击方法SA-Attack,实验证实其在Flickr30K和COCO数据集上的有效性。
❓
延伸问答
什么是集合级引导攻击(SGA)?
集合级引导攻击(SGA)是一种新型攻击方法,利用模态交互来生成强力的对抗性示例,显著提高了视觉语言预训练模型的攻击成功率。
VLP模型的脆弱性主要表现在哪些方面?
VLP模型的脆弱性主要体现在对新型通用对抗扰动(UAP)攻击的敏感性以及在多模态任务中的攻击性能不足。
如何提高视觉语言模型的对抗性鲁棒性?
可以通过引入多模态对抗性攻击策略和模态交互机制来提高视觉语言模型的对抗性鲁棒性。
协作多模态对抗攻击(Co-Attack)有什么特点?
协作多模态对抗攻击(Co-Attack)是一种新型攻击方法,旨在提高对不同视觉语言下游任务和VLP模型的攻击性能。
CMI-Attack方法的优势是什么?
CMI-Attack方法利用模态交互机制增强对抗攻击效果,在图像-文本检索任务中提高了转移成功率。
研究发现黑盒查询对VLP模型有什么影响?
研究发现黑盒查询可以提高VLP模型的定向逃避效果,揭示了其潜在的安全漏洞。
➡️