Anthropic研究人员开源了一款工具,用于追踪大型语言模型的推理过程。该工具包括一个Python库和图形前端,通过替换模型神经元,利用稀疏激活特征生成归因图,揭示模型内部计算步骤,从而提高LLM的可解释性。
Claude团队推出开源工具“电路追踪”,可视化大模型思维过程,生成归因图,帮助研究人员理解LLM内部机制。用户可通过Neuronpedia进行交互式探索,验证模型行为。该工具在GitHub上获得400+个Star,受到广泛关注。
该研究旨在发现和定位图像序列中的单调时间变化,并成功通过对乱序图像序列进行排序,利用时间作为监督信号实现了该目标。该模型在多种视频场景和对象类型中应用,并证明了基于注意力的归因图作为有效的提示用于分割变化区域。该模型在对图像集进行排序的标准基准上达到了业界最高水平。
完成下面两步后,将自动完成登录并继续当前操作。