我们提出了改进的方法,以揭示语言模型中的神经活动,发现了1600万个可解释的特征,并与研究社区共享相关论文、代码和可视化工具。这些方法在可扩展性上优于现有研究。
完成下面两步后,将自动完成登录并继续当前操作。