VLSU:绘制人工智能安全的联合多模态理解的边界

VLSU:绘制人工智能安全的联合多模态理解的边界

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

本文提出了视觉语言安全理解(VLSU)框架,用于系统评估多模态模型的安全性。研究发现,现有模型在图像-文本联合推理时准确率仅为20-55%。此外,模型在拒绝不安全内容与处理边界案例之间难以平衡,导致过度屏蔽和拒绝率下降。该框架揭示了模型的理解弱点,为未来研究奠定了基础。

🎯

关键要点

  • 提出了视觉语言安全理解(VLSU)框架,用于系统评估多模态模型的安全性。
  • 现有模型在图像-文本联合推理时准确率仅为20-55%。
  • 模型在拒绝不安全内容与处理边界案例之间难以平衡,导致过度屏蔽和拒绝率下降。
  • 该框架通过细致的严重性分类和组合分析,揭示了模型的理解弱点。
  • 构建了一个包含8,187个样本的大规模基准,涵盖15个伤害类别。
  • 评估发现,尽管模型在单一模态安全信号上准确率超过90%,但在联合推理时表现显著下降。
  • 34%的联合图像-文本安全分类错误发生在单独模态正确分类的情况下,显示出缺乏组合推理能力。
  • 指令框架可以减少边界内容的过度屏蔽率,但会导致对不安全内容的拒绝率下降。
  • 该框架为未来研究提供了基础,促进稳健的视觉-语言安全研究的进展。
➡️

继续阅读