VLSU:映射人工智能安全的联合多模态理解的局限性

VLSU:映射人工智能安全的联合多模态理解的局限性

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

多模态基础模型的安全评估通常将视觉和语言输入分开,忽视了联合解释的风险。我们提出了视觉语言安全理解(VLSU)框架,通过细致的严重性分类和组合分析来评估安全性。研究表明,尽管模型在单一安全信号上表现良好,但在需要联合图像-文本推理时,准确率显著下降,显示出组合推理能力的不足。该框架揭示了当前模型在联合理解方面的弱点,并为未来研究提供了重要的测试平台。

🎯

关键要点

  • 多模态基础模型的安全评估通常将视觉和语言输入分开,忽视了联合解释的风险。
  • 提出了视觉语言安全理解(VLSU)框架,通过细致的严重性分类和组合分析来评估安全性。
  • 现有方法未能清晰区分不安全内容与边界案例,导致过度屏蔽或未能拒绝真正有害内容的问题。
  • VLSU框架通过17种不同安全模式的细致分类和组合分析,系统评估多模态安全性。
  • 构建了一个包含8,187个样本的大规模基准,涵盖15个伤害类别。
  • 对11个最先进模型的评估显示,联合理解存在系统性失败,单一安全信号准确率超过90%,但联合图像-文本推理时准确率降至20-55%。
  • 34%的联合图像-文本安全分类错误发生在单独模态正确分类的情况下,显示出缺乏组合推理能力。
  • 模型在拒绝不安全内容与响应边界案例之间难以平衡。
  • 指令框架可以将边界内容的过度屏蔽率从62.4%降低到10.4%,但同时导致对不安全内容的拒绝率从90.8%降至53.9%。
  • VLSU框架揭示了当前模型在联合理解方面的弱点,并为未来研究提供了重要的测试平台。
➡️

继续阅读