电路打破:有针对性地消除模型行为
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了语言模型计算的内部结构,发现了适应性计算形式和后期 MLP 层的反平衡功能。研究表明,即使在没有 dropout 的训练中,语言模型层相对较松散耦合,这些效应仍会发生。文章分析了这些效应对语言模型中的电路级归因的影响。
🎯
关键要点
- 研究语言模型计算的内部结构,发现适应性计算形式和后期 MLP 层的反平衡功能。
- 适应性计算形式表现为去除一个注意力层会导致另一个层进行补偿,称为 Hydra 效应。
- 语言模型层通常相对较松散耦合,去除一个层只会影响少量下游层。
- 即使在没有 dropout 的训练中,这些效应仍然存在。
- 分析这些效应对语言模型中的电路级归因的影响。
➡️