Defending Large Vision Language Models Against Visual Attacks Through Partial Perceptual Supervision
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究分析了大型视觉语言模型(LVLMs)在图像攻击中的脆弱性,提出了DPS方法,通过部分感知监督提升模型的抗攻击能力,使攻击成功率降低了76.3%。
🎯
关键要点
- 本研究分析了大型视觉语言模型(LVLMs)在图像攻击中的脆弱性。
- 提出了一种名为DPS的方法,通过部分感知监督提升模型的抗攻击能力。
- DPS方法利用对部分图像的理解来调整模型的响应。
- 该方法有效提高了模型在攻击下的应对能力。
- 在干净输入情况下,模型的响应自信心得以保持。
- 实验证明DPS方法使攻击成功率降低了76.3%。
➡️