小红花·文摘

该文介绍了一种越狱攻击和守护方法，通过恶意上下文引导模型生成有害输出，并通过拒绝回答有害提示的演示来增强模型的鲁棒性。

BriefGPT - AI 论文速递 ·

研究发现，大型语言模型可被操纵以增加或减少越狱概率。提出了越狱攻击和守护方法，通过恶意上下文引导模型生成有害输出，并通过拒绝回答有害提示的演示来增强模型的鲁棒性。实验表明，这些方法在增加或减少敌对越狱攻击成功率方面是有效的。

BriefGPT - AI 论文速递 ·