自注意力中的各向异性

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文将Transformer视为相互作用的粒子系统,描述了学习表示的几何特征,证明了表示中的粒子会在时间趋于无穷时聚集到特定的极限对象,这取决于值矩阵的谱。同时,在一维情况下,证明了自我关注矩阵收敛于低秩布尔矩阵。这些结果证实了在Transformers处理标记时会出现“leader”。

🎯

关键要点

  • 本文将Transformer视为相互作用的粒子系统。
  • 描述了当权重不随时间变化时,学习表示的几何特征。
  • 证明了表示中的粒子会在时间趋于无穷时聚集到特定的极限对象,取决于值矩阵的谱。
  • 在一维情况下,证明了自我关注矩阵收敛于低秩布尔矩阵。
  • 这些结果证实了在Transformers处理标记时会出现“leader”的现象。
➡️

继续阅读