小红花·文摘

本研究提出了一种针对多模态大语言模型对齐安全性问题的通用对抗攻击方法。该方法通过单一优化图像实现了显著高于现有基准的成功率，揭示了多模态对齐的脆弱性，并强调了加强对抗防御的必要性。