通过单个向量进行视觉语言模型的有效和高效的对抗检测

本研究解决了视觉语言模型(VLMs)对抗攻击脆弱性的问题，尤其是针对对抗图像的攻击在文献中尚未得到充分研究。研究者构建了一个新的大规模对抗图像数据集（RADAR），并提出了一种新颖的基于嵌入的对抗图像检测方法（NEARSIDE），通过利用从VLM的隐藏状态中提取的单个向量以实现有效的对抗图像检测。实验结果验证了该方法的有效性、高效性及跨模型的可迁移性。

本研究针对视觉语言模型(VLMs)的对抗攻击脆弱性，构建了新的对抗图像数据集（RADAR），并提出了一种基于嵌入的对抗图像检测方法（NEARSIDE），验证了其有效性和可迁移性。

NEARSIDE RADAR 向量图像检测对抗攻击视觉语言模型语言模型