LLMs 能够深入检测复杂恶意查询吗?通过混淆意图进行越狱的框架
原文中文,约400字,阅读约需1分钟。发表于: 。提出了一种名为 IntentObfuscator 的黑盒越狱攻击方法,通过模糊用户提示背后的真实意图,使 LLMs 绕过其内置的内容安全措施,有效地规避了恶意意图检测;通过在 ChatGPT-3.5 等多个模型上的测试,证明了 IntentObfuscator 方法在多种敏感内容类型上的成功率,进而对加强 LLM 内容安全框架的 “红队” 策略产生了实质性的影响。
该研究聚焦于多模态大型语言模型(MLLMs)的越狱攻击,提出了一种基于最大似然的算法,可以寻找“图像越狱提示”(imgJP),在多个未知提示和图像上实现对 MLLMs 的越狱。此外,揭示了 MLLM 越狱和 LLM 越狱之间的联系,并引入了一种基于构造的方法,将该方法应用于 LLM 越狱,比当前最先进的方法更高效。