小红花·文摘

本文研究了大型语言模型中神经元激活与语言输出的可控性，提出了语言激活概率熵（LAPE）检测方法。分析表明，特定神经元的激活与任务表现相关。此外，介绍了神经元级微调（NeFT）方法，提升了模型的训练效率和性能。