通过单个向量进行视觉语言模型的有效和高效的对抗检测

💡 原文中文,约800字,阅读约需2分钟。
📝

内容提要

本研究针对视觉语言模型(VLMs)的对抗攻击脆弱性,构建了一个新的大规模对抗图像数据集(RADAR),并提出了一种基于嵌入的对抗图像检测方法(NEARSIDE)。该方法通过提取VLM隐藏状态中的单个向量,实现了有效的对抗图像检测,实验结果表明其有效性和跨模型的可迁移性。

🎯

关键要点

  • 本研究针对视觉语言模型(VLMs)的对抗攻击脆弱性,尤其是对抗图像的攻击。

  • 构建了一个新的大规模对抗图像数据集(RADAR)。

  • 提出了一种基于嵌入的对抗图像检测方法(NEARSIDE)。

  • NEARSIDE方法通过提取VLM隐藏状态中的单个向量,实现了有效的对抗图像检测。

  • 实验结果表明该方法的有效性、高效性及跨模型的可迁移性。

➡️

继续阅读