神经网络模型性能高但难以解释。文章提出电路探测技术,通过分析中间变量的低层电路,实现参数切割和因果分析。在简单算术任务中,该方法有效解密模型算法,揭示内部结构,追踪电路发展。应用于GPT2模型,发现负责主谓一致和反身指代的电路。
神经网络模型性能高但难以解释。本文提出电路探测技术,通过发现中间变量的低层电路,实现参数切割和因果分析。在简单算术任务中,该方法有效解密模型算法,揭示内部结构,追踪训练过程。应用于GPT2模型,发现负责主谓一致和反身指代的电路。
完成下面两步后,将自动完成登录并继续当前操作。