Enhancing the Safety of Vision-Language Models through Progressive Concept-Bottleneck-Driven Alignment
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种渐进式概念驱动的对齐策略(PSA-VLM),旨在增强视觉语言模型的安全性。该方法通过将安全模块作为概念瓶颈,显著提升了对风险图像的防御能力,同时保持了模型性能,取得了先进的安全基准成果。
🎯
关键要点
- 本研究提出了一种渐进式概念驱动的对齐策略(PSA-VLM),旨在增强视觉语言模型的安全性。
- 该方法通过将安全模块作为概念瓶颈,显著提升了对风险图像的防御能力。
- 研究表明,PSA-VLM在保护模型性能的同时,取得了先进的安全基准成果。
➡️