小红花·文摘

本文提出了“围攻”多轮对抗框架，从树搜索角度分析大型语言模型的安全性问题。通过扩展对话，揭示微小让步如何导致不当输出，并在GPT-3.5-turbo和GPT-4中显示出高破解成功率，强调了对语言模型进行多轮测试的必要性。