通过渐进式概念瓶颈驱动对齐增强视觉语言模型的安全性
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种渐进式概念驱动的对齐策略(PSA-VLM),有效解决了视觉语言模型的安全脆弱性,显著增强了对风险图像的防御能力。
🎯
关键要点
- 本研究提出了一种渐进式概念驱动的对齐策略(PSA-VLM)。
- 该策略有效解决了视觉语言模型(VLMs)中的安全脆弱性问题。
- PSA-VLM将安全模块作为概念瓶颈,以增强视觉安全性。
- 研究表明,该方法在保护模型性能的同时,显著提升了对风险图像的防御能力。
- 在流行的VLM安全基准上,该方法取得了最先进的成果。
➡️