Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨多模态大语言模型(MLLMs)的安全对齐问题,指出现有模型在多模态输入下存在缺口。实验表明,数据分布偏见是主要原因。提出通过微调模型和使用拒绝句替换响应的方法,显著提高安全性,而无需收集恶意数据。
🎯
关键要点
- 本研究探讨多模态大语言模型(MLLMs)的安全对齐问题。
- 现有模型在多模态输入下存在对齐缺口。
- 数据分布偏见被认为是造成对齐缺口的主要原因。
- 提出通过微调模型和使用拒绝句替换响应的方法来提高安全性。
- 该方法显著提高安全性,而无需收集恶意数据。
➡️