💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
本文提出了视觉语言安全理解(VLSU)框架,用于系统评估多模态模型的安全性。研究发现,现有模型在图像-文本联合推理时准确率仅为20-55%。此外,模型在拒绝不安全内容与处理边界案例之间难以平衡,导致过度屏蔽和拒绝率下降。该框架揭示了模型的理解弱点,为未来研究奠定了基础。
🎯
关键要点
- 提出了视觉语言安全理解(VLSU)框架,用于系统评估多模态模型的安全性。
- 现有模型在图像-文本联合推理时准确率仅为20-55%。
- 模型在拒绝不安全内容与处理边界案例之间难以平衡,导致过度屏蔽和拒绝率下降。
- 该框架通过细致的严重性分类和组合分析,揭示了模型的理解弱点。
- 构建了一个包含8,187个样本的大规模基准,涵盖15个伤害类别。
- 评估发现,尽管模型在单一模态安全信号上准确率超过90%,但在联合推理时表现显著下降。
- 34%的联合图像-文本安全分类错误发生在单独模态正确分类的情况下,显示出缺乏组合推理能力。
- 指令框架可以减少边界内容的过度屏蔽率,但会导致对不安全内容的拒绝率下降。
- 该框架为未来研究提供了基础,促进稳健的视觉-语言安全研究的进展。
➡️