小红花·文摘

本研究提出因果头门控方法（CHG），旨在解决变换器模型中注意力头功能理解的不足。该方法通过学习软门控，为注意力头提供因果分类，适用于各种数据集，揭示因果关系。研究发现多个稀疏子电路，指令遵循和上下文学习依赖于可分离机制。