Defending Large Vision Language Models Against Visual Attacks Through Partial Perceptual Supervision

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究分析了大型视觉语言模型(LVLMs)在图像攻击中的脆弱性,提出了DPS方法,通过部分感知监督提升模型的抗攻击能力,使攻击成功率降低了76.3%。

🎯

关键要点

  • 本研究分析了大型视觉语言模型(LVLMs)在图像攻击中的脆弱性。
  • 提出了一种名为DPS的方法,通过部分感知监督提升模型的抗攻击能力。
  • DPS方法利用对部分图像的理解来调整模型的响应。
  • 该方法有效提高了模型在攻击下的应对能力。
  • 在干净输入情况下,模型的响应自信心得以保持。
  • 实验证明DPS方法使攻击成功率降低了76.3%。
➡️

继续阅读