低语专家:通过抑制专家神经元减轻预训练语言模型中的有害性

低语专家:通过抑制专家神经元减轻预训练语言模型中的有害性

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

该文章介绍了一种减轻大型语言模型生成有害语言的方法,通过识别神经元对有害句子的区分能力,减少其激活水平来减轻有害语言。作者提出了AUROC适应(AURA)方法,可应用于任何预训练的大型语言模型。实验证明,AURA可将有害性减少2.2倍,仅增加0.72的困惑度。AURA在不同规模的模型上都有效,并保留了常识零样本能力。AURA可与预提示策略结合,将平均减轻潜力从1.28倍提升至2.35倍。此外,AURA还可对抗恶意预提示引发的有害内容,成为一种有效的部署更安全、更少有害模型的方法。

🎯

关键要点

  • 大型语言模型(LLMs)生成有害语言的问题
  • 通过识别神经元对有害句子的区分能力来减轻有害语言
  • 提出AUROC适应(AURA)方法,适用于任何预训练的LLM
  • AURA可将有害性减少2.2倍,困惑度仅增加0.72
  • AURA在不同规模的模型上有效,保留常识零样本能力
  • AURA可与预提示策略结合,减轻潜力从1.28倍提升至2.35倍
  • AURA能对抗恶意预提示引发的有害内容
  • AURA是一种有效的部署更安全、更少有害模型的方法
➡️

继续阅读