用 LLM 玩猜谜游戏:通过隐含暗示的间接越狱攻击
原文中文,约400字,阅读约需1分钟。发表于: 。通过提供一些关于原始恶意查询的提示,间接绕过 LLM 的防御策略并获得恶意响应的间接越狱攻击方法 Puzzler,通过采用防御姿态通过 LLMs 收集原始恶意查询的线索,相较于基准方案,Puzzler 在闭源 LLMs 上实现了 96.6% 的查询成功率,比基准方案高出 57.9% 至 82.7%,同时对抗最新的越狱检测方法时,Puzzler 较基准方案更具逃避检测的有效性。
本文研究了日常语言交互与AI安全之间的交叉点,探讨了如何说服大型语言模型进行越狱。通过社会科学研究,提出了基于说服分类的方法,并应用于自动生成的对抗提示,结果表明说服显著提高了越狱性能。同时发现现有的防御手段存在差距,呼吁减轻高交互性大型语言模型的风险。