小红花·文摘

本研究探讨了大语言模型在处理代码混合输入时的不安全输出问题，揭示了导致有害行为的机制，并区分了普遍与文化特定的不安全查询，为理解这一现象提供了新见解。

BriefGPT - AI 论文速递 ·

研究发现大语言模型中的安全神经元稀疏但有效，仅需干预约5%的神经元即可恢复90%的安全性能。这些神经元在不同测试中表现一致，解释了“对齐税”现象，并可用于检测不安全输出。源代码将公开以支持未来研究。

BriefGPT - AI 论文速递 ·

该研究发现了大语言模型中负责安全行为的安全神经元，并探索了安全对齐的内在机制。实验证明，只需对约5％的神经元进行干预，即可恢复90％的安全性能。此外，研究还展示了在生成之前使用安全神经元检测不安全输出的应用。

BriefGPT - AI 论文速递 ·