本研究探讨了大语言模型在处理代码混合输入时的不安全输出问题,揭示了导致有害行为的机制,并区分了普遍与文化特定的不安全查询,为理解这一现象提供了新见解。
研究发现大语言模型中的安全神经元稀疏但有效,仅需干预约5%的神经元即可恢复90%的安全性能。这些神经元在不同测试中表现一致,解释了“对齐税”现象,并可用于检测不安全输出。源代码将公开以支持未来研究。
该研究发现了大语言模型中负责安全行为的安全神经元,并探索了安全对齐的内在机制。实验证明,只需对约5%的神经元进行干预,即可恢复90%的安全性能。此外,研究还展示了在生成之前使用安全神经元检测不安全输出的应用。
完成下面两步后,将自动完成登录并继续当前操作。