通过单个向量进行视觉语言模型的有效和高效的对抗检测
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究针对视觉语言模型(VLMs)的对抗攻击脆弱性,构建了新的对抗图像数据集(RADAR),并提出了一种基于嵌入的对抗图像检测方法(NEARSIDE),验证了其有效性和可迁移性。
🎯
关键要点
- 本研究针对视觉语言模型(VLMs)的对抗攻击脆弱性。
- 构建了新的大规模对抗图像数据集(RADAR)。
- 提出了一种基于嵌入的对抗图像检测方法(NEARSIDE)。
- NEARSIDE方法利用VLM的隐藏状态提取的单个向量进行对抗图像检测。
- 实验结果验证了NEARSIDE的有效性、高效性及跨模型的可迁移性。
➡️