大型语言模型可以通过越狱攻击和守护方法来增加或减少越狱的概率,提高模型的鲁棒性和安全性。
该文介绍了一种越狱攻击和守护方法,通过恶意上下文引导模型生成有害输出,并通过拒绝回答有害提示的演示来增强模型的鲁棒性。
研究发现,大型语言模型可被操纵以增加或减少越狱概率。提出了越狱攻击和守护方法,通过恶意上下文引导模型生成有害输出,并通过拒绝回答有害提示的演示来增强模型的鲁棒性。实验表明,这些方法在增加或减少敌对越狱攻击成功率方面是有效的。
完成下面两步后,将自动完成登录并继续当前操作。