Tastle: 自动越狱攻击中的大型语言模型分散技术
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了 Tastle,一种新颖的黑盒越狱框架,用于自动化红队攻击大型语言模型(LLMs),通过设计恶意内容隐藏和内存重构来破解 LLMs,实验证明了我们的框架在有效性、可扩展性和可转移性方面的优越性,并评估现有的越狱防御方法的有效性以及发展更有效和实用的防御策略的重要性。
该研究提出了一种基于最大似然的算法,用于多模态大型语言模型(MLLMs)的越狱攻击。通过寻找“图像越狱提示”(imgJP),在多个未知提示和图像上实现对 MLLMs 的越狱。同时,揭示了 MLLM 越狱和 LLM 越狱之间的联系,并引入了一种基于构造的方法,将其应用于 LLM 越狱,比当前最先进的方法更高效。