小红花·文摘

本研究针对视觉语言模型(VLMs)的对抗攻击脆弱性，构建了一个新的大规模对抗图像数据集（RADAR），并提出了一种基于嵌入的对抗图像检测方法（NEARSIDE）。该方法通过提取VLM隐藏状态中的单个向量，实现了有效的对抗图像检测，实验结果表明其有效性和跨模型的可迁移性。