BriefGPT - AI 论文速递 ·

关于单模型和视觉语言预训练模型之间对抗漏洞的统一理解

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文研究了视觉语言预训练模型（VLP）的对抗性，提出了集合级引导攻击（SGA）和协作多模态对抗攻击（Co-Attack）等新型攻击方法，显著提高了攻击成功率。实验结果表明，模态交互在增强对抗鲁棒性方面至关重要，揭示了VLP模型的脆弱性及其在实际应用中的安全隐患。

🎯

关键要点

研究了视觉语言预训练模型（VLP）的对抗性传递性，发现现有方法表现较低，主要由于跨模态交互利用不足。
提出了集合级引导攻击（SGA）方法，利用模态交互，显著提高了攻击成功率，成功率提升至少9.78%，最高可达30.21%。
提出了VLAttack框架，通过融合单模态和多模态扰动生成对抗样本，揭示了预训练VLP模型部署中的重要盲点。
展示了VLP模型对新型通用对抗扰动（UAP）攻击的脆弱性，并提出基于多模态对齐的对抗扰动生成方法，表现出卓越的攻击性能。
提出了协作多模态对抗攻击（Co-Attack）方法，以提高对不同视觉语言下游任务和VLP模型的攻击性能。
通过综合性策略同时攻击文本和图像模态，成功率达到96%，突显了视觉语言模型的脆弱性和对新对齐策略的需求。
引入多模态对抗性攻击策略，提高了CLIP模型的对抗性鲁棒性，实验表明该方法在多个数据集上显著提升了鲁棒性。
提出CMI-Attack方法，利用模态交互机制增强对抗攻击的效果，在图像-文本检索任务中提高了转移成功率。
评估开源大型视觉语言模型的鲁棒性，发现黑盒查询可以提高定向逃避效果，呼吁对潜在安全漏洞进行更全面的研究。
总结现有研究，提出基于自我增强的转移攻击方法SA-Attack，实验证实其在Flickr30K和COCO数据集上的有效性。

❓

延伸问答

什么是集合级引导攻击（SGA）？

集合级引导攻击（SGA）是一种新型攻击方法，利用模态交互来生成强力的对抗性示例，显著提高了视觉语言预训练模型的攻击成功率。

VLP模型的脆弱性主要表现在哪些方面？

VLP模型的脆弱性主要体现在对新型通用对抗扰动（UAP）攻击的敏感性以及在多模态任务中的攻击性能不足。

如何提高视觉语言模型的对抗性鲁棒性？

可以通过引入多模态对抗性攻击策略和模态交互机制来提高视觉语言模型的对抗性鲁棒性。

协作多模态对抗攻击（Co-Attack）有什么特点？

协作多模态对抗攻击（Co-Attack）是一种新型攻击方法，旨在提高对不同视觉语言下游任务和VLP模型的攻击性能。

CMI-Attack方法的优势是什么？

CMI-Attack方法利用模态交互机制增强对抗攻击效果，在图像-文本检索任务中提高了转移成功率。

研究发现黑盒查询对VLP模型有什么影响？

研究发现黑盒查询可以提高VLP模型的定向逃避效果，揭示了其潜在的安全漏洞。

🏷️

标签

对抗性攻击方法模态交互漏洞视觉语言预训练模型鲁棒性

➡️

继续阅读

新语言分类学
旧有的语系分类，建立在血缘地缘和人口迁徙的假设之上。然而随着全球化和语言学研究的深入，这种分类法暴露出根本性的缺陷：它忽视了人类语言处理的核心机制——大脑...
物理AI模型对决：Claude Fable 5碾压GPT-5.6家族
模型打架你站谁？物理AI考场全记录。 OpenAI和Anthropic的顶级模型在物理建模考场正面交锋，五道密封考题，52次严格评分，分数、成本、时间全部...
τ0-VLA——具有世界模型“引导测试时计算”的分层机器人模型：首先生成多个子任务候选，然后世界模型预演，最后价值模型评估
本文摘要：τ0-VLA提出了一种分层机器人基础模型，通过世界模型引导的测试时计算来提升长时程任务中的决策质量。该系统采用高层策略生成候选子任务，结合世界模...
数据集汇总丨从竞赛数学到工具调用，MIT/NVIDIA/华中科大等开源9个数学数据集，覆盖 CoT 、多模态推理与长链思维训练
数学推理已成为衡量大语言模型（LLM）智能水平的核心指标。从算术计算到奥林匹克级问题，再到多步规划与工具调用，模型正从「给出答案」迈向「理解问题并完成推理...
使用 Amazon Athena 分析 Kiro 团队用量报表：动态模型列的数据建模实践
本文介绍了如何使用 Amazon Athena 对 Kiro 提供的 per-user activity 报表进行分析。
Claude Code之父：Harness保质期只有半年，解开缰绳吧
Claude code之父：大模型是有机生物，做好AI产品疏胜于堵