COLD-Attack: 使用隐秘性与可控性越狱线性语言模型

大型语言模型（LLMs）上的越狱问题近来引起了越来越多的关注，本文提出了可控制的攻击生成问题，并构建了与自然语言处理中可控制文本生成问题之间的联系，通过 COLD-Attack 框架统一并自动化了对各种控制要求下的对抗性 LLM 攻击的搜索，实验证明了其广泛适用性、强大的可控性、高成功率和攻击可迁移性。

该研究聚焦于多模态大型语言模型（MLLMs）的越狱攻击，提出了一种基于最大似然的算法，可以寻找“图像越狱提示”（imgJP），在多个未知提示和图像上实现对 MLLMs 的越狱。此外，揭示了 MLLM 越狱和 LLM 越狱之间的联系，并引入了一种基于构造的方法，将该方法应用于 LLM 越狱，比当前最先进的方法更高效。