COLD-Attack: 使用隐秘性与可控性越狱线性语言模型
原文中文,约400字,阅读约需1分钟。发表于: 。大型语言模型(LLMs)上的越狱问题近来引起了越来越多的关注,本文提出了可控制的攻击生成问题,并构建了与自然语言处理中可控制文本生成问题之间的联系,通过 COLD-Attack 框架统一并自动化了对各种控制要求下的对抗性 LLM 攻击的搜索,实验证明了其广泛适用性、强大的可控性、高成功率和攻击可迁移性。
该研究聚焦于多模态大型语言模型(MLLMs)的越狱攻击,提出了一种基于最大似然的算法,可以寻找“图像越狱提示”(imgJP),在多个未知提示和图像上实现对 MLLMs 的越狱。此外,揭示了 MLLM 越狱和 LLM 越狱之间的联系,并引入了一种基于构造的方法,将该方法应用于 LLM 越狱,比当前最先进的方法更高效。