本研究提出因果头门控方法(CHG),旨在解决变换器模型中注意力头功能理解的不足。该方法通过学习软门控,为注意力头提供因果分类,适用于各种数据集,揭示因果关系。研究发现多个稀疏子电路,指令遵循和上下文学习依赖于可分离机制。
完成下面两步后,将自动完成登录并继续当前操作。