迷宫解决变形器中的结构化世界表示

该研究通过解迷宫的方式，探究了小型 Transformer 模型的内部行为和结构化内部表示，其中发现了仅通过一个标记的残差流可以线性解码恢复整个迷宫的证据，以及每个标记的学习嵌入具有空间结构，并且通过识别称为 “邻接头” 的注意力头揭示了追踪路径的线路。

本文从几何视角揭示了Transformer操作的内部机制，说明层归一化将潜在特征限制在超球面上，塑造单词的语义表示。通过探究GPT-2模型，发现了早期层中的清晰查询-键注意力模式，并构建了关于注意力头部的特定主题性的先前观察。利用这些洞察，将Transformer描述为沿着超球面的词粒子的轨迹的建模过程。

Transformer操作几何视角层归一化语义表示超球面