Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨多模态大语言模型(MLLMs)的安全对齐问题,指出现有模型在多模态输入下存在缺口。实验表明,数据分布偏见是主要原因。提出通过微调模型和使用拒绝句替换响应的方法,显著提高安全性,而无需收集恶意数据。

🎯

关键要点

  • 本研究探讨多模态大语言模型(MLLMs)的安全对齐问题。
  • 现有模型在多模态输入下存在对齐缺口。
  • 数据分布偏见被认为是造成对齐缺口的主要原因。
  • 提出通过微调模型和使用拒绝句替换响应的方法来提高安全性。
  • 该方法显著提高安全性,而无需收集恶意数据。
➡️

继续阅读