语言模型的解释性研究有限,本文提出了一种自动化的方法,使用GPT-4生成和评分神经元行为的自然语言解释,并将其应用于另一个语言模型。这种方法有望成为未来模型更好解释的助手。
完成下面两步后,将自动完成登录并继续当前操作。