GPT2 语言模型中的通用神经元

通过计算 GPT2 模型中神经元激活的成对相关性，研究了不同随机种子下神经元的普遍性，并发现 1-5% 的神经元是普遍的，即这些神经元在相同输入上持续激活。此外，对这些普遍神经元进行了详细研究，发现它们通常具有清晰的解释，并将其归类到几个神经元家族中。最后，通过研究神经元权重的模式，确定了神经元在简单电路中的几个普遍功能角色：关闭注意力机制、改变下一个标记分布的熵，以及预测下一个标记是否在特定集合内。

通过计算 GPT2 模型中神经元激活的成对相关性，研究了不同随机种子下神经元的普遍性，并发现 1-5% 的神经元是普遍的。对这些普遍神经元进行了详细研究，发现它们通常具有清晰的解释，并将其归类到几个神经元家族中。通过研究神经元权重的模式，确定了神经元在简单电路中的几个普遍功能角色。

GPT2 模型 gpt2 普遍性神经元神经元家族解释语言模型