小红花·文摘

本研究探讨多模态大语言模型（MLLMs）的安全对齐问题，指出现有模型在多模态输入下存在缺口。实验表明，数据分布偏见是主要原因。提出通过微调模型和使用拒绝句替换响应的方法，显著提高安全性，而无需收集恶意数据。