BriefGPT - AI 论文速递 ·

CoCA：通过宪法校准恢复多模态大型语言模型的安全意识

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文提出了MLLM-Protector，旨在提升多模态大型语言模型（MLLMs）的安全性。通过结合轻量级有害检测器和响应解毒剂，该策略有效降低了恶意输入的风险。研究开发了视觉语言安全指令数据集VLGuard，并通过微调提升模型安全性，显著降低了对抗攻击的成功率。此外，提出了VISAGE安全度量标准，帮助评估LLMs的安全性，强调了系统提示在保护模型中的重要性。

🎯

关键要点

提出了MLLM-Protector，结合轻量级有害检测器和响应解毒剂，旨在提升多模态大型语言模型的安全性。
开发了视觉语言安全指令数据集VLGuard，通过微调提升模型安全性，显著降低对抗攻击的成功率。
提出了ECSO方法，利用MLLMs的内在安全意识，自适应转换不安全图像以激活内在安全机制。
通过添加安全模块，提高现有视觉语言模型的视觉安全对齐，有效防御危险图像。
提出VISAGE安全度量标准，帮助评估LLMs的安全性，强调系统提示在保护模型中的重要性。
通过反学习实现跨模态安全对齐，显著减少VLMs中的攻击成功率，同时保留实用性。
建立MultiTrust综合基准，揭示多模态大型语言模型的可信度问题与风险，强调提升可靠性的必要性。
介绍MLLMGuard，针对MLLMs的多维安全评估套件，全面评估隐私、偏见、有毒性、真实性和合法性等安全维度。

❓

延伸问答

什么是MLLM-Protector，它的主要功能是什么？

MLLM-Protector是一种结合轻量级有害检测器和响应解毒剂的策略，旨在提升多模态大型语言模型的安全性，降低恶意输入的风险。

VLGuard数据集的作用是什么？

VLGuard数据集用于提升多模态大型语言模型的安全性，通过微调使模型有效拒绝不安全的指令，降低对抗攻击的成功率。

ECSO方法如何提高模型的安全性？

ECSO方法利用MLLMs的内在安全意识，将不安全的图像自适应转换为文本，从而激活内在安全机制，显著提高模型的安全性。

VISAGE安全度量标准的目的是什么？

VISAGE安全度量标准用于通过探测安全景观来衡量大型语言模型的安全性，强调系统提示在保护模型中的重要性。

如何通过反学习实现跨模态安全对齐？

通过在文本领域进行反学习，可以显著减少视觉语言模型中的攻击成功率，同时保持模型的实用性。

MLLMGuard的功能是什么？

MLLMGuard是一个多维安全评估套件，全面评估多模态大型语言模型在隐私、偏见、有毒性、真实性和合法性等方面的安全性。

🏷️