本研究针对视觉语言模型(VLMs)的对抗攻击脆弱性,构建了一个新的大规模对抗图像数据集(RADAR),并提出了一种基于嵌入的对抗图像检测方法(NEARSIDE)。该方法通过提取VLM隐藏状态中的单个向量,实现了有效的对抗图像检测,实验结果表明其有效性和跨模型的可迁移性。
完成下面两步后,将自动完成登录并继续当前操作。