小红花·文摘

研究发现大语言模型中的安全神经元稀疏但有效，仅需干预约5%的神经元即可恢复90%的安全性能。这些神经元在不同测试中表现一致，解释了“对齐税”现象，并可用于检测不安全输出。源代码将公开以支持未来研究。