利用自我评估抵御对 LLM 的敌对攻击
原文中文,约300字,阅读约需1分钟。发表于: 。训练和指导 LLMs 拒绝生成不安全、带偏见或侵犯隐私的输出,在敏感的人机交互环境中使用 LLMs 时至关重要。通过给输入的末尾添加一个空格,我们发现可以简单地突破模型的防御,导致大多数模型生成具有极高成功率的有害输出,这与训练数据中单个空格出现的上下文鼓励模型在提示时生成列表,从而覆盖了拒绝回答不安全请求的训练信号。我们的发现凸显了当前模型对齐的脆弱状态,并强调了开发更具鲁棒性的对齐方法的重要性。
我们提出了一种自我改进的格式化方法,可以在非安全对齐的语言模型中实现出色的安全性。通过与几种防御基线进行评估,证明它是最安全的无需训练的方法。同时,我们提出了一种提高自我改进效率的格式化方法,并降低攻击成功率。观察到,在安全任务中,非安全对齐的语言模型表现更好,给出更有帮助且安全的回应。研究发现可以在减少计算成本的同时减少安全风险,使非安全的语言模型可以在真实世界的服务中应用。