合并提升自我审查对抗越狱攻击
原文中文,约300字,阅读约需1分钟。发表于: 。通过融合批评模型和自我批评能力,将大型语言模型(LLM)微调于经过净化的合成数据之上,以提高其对抗性提示的自我批评能力和鲁棒性,从而显著降低攻击者的攻击成功率,为抵御越狱攻击提供了一种有前景的防御机制。
我们提出了一种自我改进的格式化方法,可以在非安全对齐的语言模型中实现出色的安全性。通过与几种防御基线进行评估,证明它是最安全的无需训练的方法。同时,我们提出了一种提高自我改进效率的格式化方法,并降低攻击成功率。观察到,在安全任务中,非安全对齐的语言模型表现更好,给出更有帮助且安全的回应。研究发现可以在减少计算成本的同时减少安全风险,使非安全的语言模型可以在真实世界的服务中轻松应用。