研究发现大语言模型中的安全神经元稀疏但有效,仅需干预约5%的神经元即可恢复90%的安全性能。这些神经元在不同测试中表现一致,解释了“对齐税”现象,并可用于检测不安全输出。源代码将公开以支持未来研究。
完成下面两步后,将自动完成登录并继续当前操作。