CoCA:通过宪法校准恢复多模态大型语言模型的安全意识

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

本文提出了MLLM-Protector,旨在提升多模态大型语言模型(MLLMs)的安全性。通过结合轻量级有害检测器和响应解毒剂,该策略有效降低了恶意输入的风险。研究开发了视觉语言安全指令数据集VLGuard,并通过微调提升模型安全性,显著降低了对抗攻击的成功率。此外,提出了VISAGE安全度量标准,帮助评估LLMs的安全性,强调了系统提示在保护模型中的重要性。

🎯

关键要点

  • 提出了MLLM-Protector,结合轻量级有害检测器和响应解毒剂,旨在提升多模态大型语言模型的安全性。
  • 开发了视觉语言安全指令数据集VLGuard,通过微调提升模型安全性,显著降低对抗攻击的成功率。
  • 提出了ECSO方法,利用MLLMs的内在安全意识,自适应转换不安全图像以激活内在安全机制。
  • 通过添加安全模块,提高现有视觉语言模型的视觉安全对齐,有效防御危险图像。
  • 提出VISAGE安全度量标准,帮助评估LLMs的安全性,强调系统提示在保护模型中的重要性。
  • 通过反学习实现跨模态安全对齐,显著减少VLMs中的攻击成功率,同时保留实用性。
  • 建立MultiTrust综合基准,揭示多模态大型语言模型的可信度问题与风险,强调提升可靠性的必要性。
  • 介绍MLLMGuard,针对MLLMs的多维安全评估套件,全面评估隐私、偏见、有毒性、真实性和合法性等安全维度。

延伸问答

什么是MLLM-Protector,它的主要功能是什么?

MLLM-Protector是一种结合轻量级有害检测器和响应解毒剂的策略,旨在提升多模态大型语言模型的安全性,降低恶意输入的风险。

VLGuard数据集的作用是什么?

VLGuard数据集用于提升多模态大型语言模型的安全性,通过微调使模型有效拒绝不安全的指令,降低对抗攻击的成功率。

ECSO方法如何提高模型的安全性?

ECSO方法利用MLLMs的内在安全意识,将不安全的图像自适应转换为文本,从而激活内在安全机制,显著提高模型的安全性。

VISAGE安全度量标准的目的是什么?

VISAGE安全度量标准用于通过探测安全景观来衡量大型语言模型的安全性,强调系统提示在保护模型中的重要性。

如何通过反学习实现跨模态安全对齐?

通过在文本领域进行反学习,可以显著减少视觉语言模型中的攻击成功率,同时保持模型的实用性。

MLLMGuard的功能是什么?

MLLMGuard是一个多维安全评估套件,全面评估多模态大型语言模型在隐私、偏见、有毒性、真实性和合法性等方面的安全性。

➡️

继续阅读