查询相关图像:大型多模态模型越狱
原文中文,约300字,阅读约需1分钟。发表于: 。我们用一种新的视觉提示攻击方法,通过利用与查询相关的图像来越狱开源的大型多模型模型 (LMMs)。我们的研究表明,即使采用了安全对齐的大型语言模型,我们的方法也能轻松攻击 LLMs。通过使用我们提出的攻击技术,我们编制了一个大规模数据集,评估了 12 种先进的 LMMs 在 13 种情景中的弱点,这凸显了存在对抗性攻击的多模型模型的脆弱性。这一发现加强了我们对加强开源 LMMs...
我们使用新的视觉提示攻击方法成功攻击了开源的大型多模型模型,即使采用了安全对齐的大型语言模型,我们的方法也能轻松攻击。我们评估了12种先进的多模型模型在13种情景中的弱点,发现了其脆弱性,加强了我们对加强安全措施的需求。