重访大型视觉语言模型的后门攻击
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
研究发现,使用指令调优增强大规模视觉语言模型(LVLMs)会增加安全风险,可能导致后门攻击。研究结果表明,攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。研究还改进了现有的后门攻击方法,在跨域场景的普适性方面取得了显著改进。该研究强调即使是简单的传统后门策略也对LVLMs构成严重威胁,需要更多关注和深入研究。
🎯
关键要点
- 使用指令调优增强大规模视觉语言模型(LVLMs)会提高安全风险,可能导致后门攻击。
- 本研究首次经验性考察了指令调优LVLMs期间后门攻击的普适性,揭示了大多数后门策略的限制。
- 攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。
- 研究改进了现有的后门攻击方法,在跨域场景的普适性方面取得了显著改进,攻击成功率提高了86%。
- 即使没有访问指令数据集,也可以使用极低的污染率(0.2%)成功毒化多模态指令集,攻击成功率超过97%。
- 研究强调简单的传统后门策略对LVLMs构成严重威胁,需要更多关注和深入研究。
➡️