本文提出了“围攻”多轮对抗框架,从树搜索角度分析大型语言模型的安全性问题。通过扩展对话,揭示微小让步如何导致不当输出,并在GPT-3.5-turbo和GPT-4中显示出高破解成功率,强调了对语言模型进行多轮测试的必要性。
完成下面两步后,将自动完成登录并继续当前操作。