该文章介绍了一种减轻大型语言模型生成有害语言的方法,通过识别神经元对有害句子的区分能力,减少其激活水平来减轻有害语言。作者提出了AUROC适应(AURA)方法,可应用于任何预训练的大型语言模型。实验证明,AURA可将有害性减少2.2倍,仅增加0.72的困惑度。AURA在不同规模的模型上都有效,并保留了常识零样本能力。AURA可与预提示策略结合,将平均减轻潜力从1.28倍提升至2.35倍。此外,AURA还可对抗恶意预提示引发的有害内容,成为一种有效的部署更安全、更少有害模型的方法。
完成下面两步后,将自动完成登录并继续当前操作。