GTA：一种面向几何的多视角 Transformer 的注意机制

通过提出一种几何感知注意机制 (Geometric Transform Attention, GTA) 来对几何结构进行编码，改进了基于 Transformer 的多视角合成模型的学习效率和性能，无需额外学习参数且计算开销较小。

本文从几何视角揭示了Transformer操作的内部机制，说明层归一化将潜在特征限制在一个超球面上，从而使得注意力能够塑造单词在这个表面上的语义表示。通过对GPT-2模型进行探究，发现了早期层中的清晰查询-键注意力模式，并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察，给出了Transformer的直观理解，将其描述为沿着超球面的词粒子的轨迹的建模过程。

GPT-2模型 Transformer 层归一化注意力超球面