在大型语言模型中寻找安全神经元
原文中文,约500字,阅读约需1分钟。发表于: 。我们通过从机理解释的角度探索安全对齐的内在机制,重点是识别和分析大语言模型中负责安全行为的安全神经元。我们提出了生成时激活对比来定位这些神经元,并提出了动态激活修复来评估其因果效应。多个最新的大语言模型的实验证明:(1)安全神经元是稀疏而有效的。只通过对大约 5%的神经元进行干预,我们可以恢复 90%的安全性能。...
该研究发现了大语言模型中负责安全行为的安全神经元,并探索了安全对齐的内在机制。实验证明,只需对约5%的神经元进行干预,即可恢复90%的安全性能。此外,研究还展示了在生成之前使用安全神经元检测不安全输出的应用。