信号传播的几何动力学预测 Transformer 的可训练性
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文将Transformer视为相互作用的粒子系统,描述了学习表示的几何特征,证明了表示中的粒子会在时间趋于无穷时聚集到特定的极限对象,这取决于值矩阵的谱。同时,在一维情况下,证明了自我关注矩阵收敛于低秩布尔矩阵。这些结果证实了在Transformers处理标记时会出现“leader”。
🎯
关键要点
- 将Transformer视为相互作用的粒子系统
- 描述了学习表示的几何特征
- 证明表示中的粒子在时间趋于无穷时聚集到特定的极限对象
- 聚集的极限对象依赖于值矩阵的谱
- 在一维情况下,自我关注矩阵收敛于低秩布尔矩阵
- 结果证实了Transformers处理标记时出现'leader'的观察
🏷️
标签
➡️