Unfair Alignment: Examining the Security Alignment of Visual Encoders Across Layers in Visual Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究分析了视觉语言模型中的安全对齐不平衡问题,发现早期和中间层对恶意输入脆弱,导致有害输出增加,单层安全策略无法应对多层次挑战。
🎯
关键要点
- 本研究分析了视觉语言模型中的安全对齐不平衡问题。
- 早期和中间层对恶意输入脆弱,导致有害输出增加。
- 单层安全策略无法应对多层次挑战。
➡️