如何请求决定一切：针对越狱攻击的简单黑盒方法

原文约300字，阅读约需1分钟。发表于：。

通过使用以 ChatGPT 为目标的简单黑盒方法，本研究有效地生成越过伦理规定的提示，突破了现有方法的复杂性和计算成本的限制，该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式，该研究结果表明，创建有效的越狱提示比以前认为的更简单，并且黑盒越狱攻击构成了更严重的安全威胁。

本研究调查了Large Language Models（LLMs）中存在的内容限制和潜在误用的挑战，以及与破解LLMs相关的三个关键问题。研究发现了10种不同模式和三种破解提示类别，并评估了ChatGPT版本3.5和4.0中破解提示的能力。研究强调了提示结构在破解LLMs中的重要性，并讨论了生成和防止鲁棒破解提示的挑战。