Anthropic研究人员开源了一款工具,用于追踪大型语言模型的推理过程。该工具包括一个Python库和图形前端,通过替换模型神经元,利用稀疏激活特征生成归因图,揭示模型内部计算步骤,从而提高LLM的可解释性。
Claude团队推出开源工具“电路追踪”,可视化大模型思维过程,生成归因图,帮助研究人员理解LLM内部机制。用户可通过Neuronpedia进行交互式探索,验证模型行为。该工具在GitHub上获得400+个Star,受到广泛关注。
完成下面两步后,将自动完成登录并继续当前操作。