小红花·文摘

本研究提出了一种新型归一化变换器nGPT，通过在超球面上进行表示学习，显著提高了训练速度和准确性，训练步骤减少了4到20倍。

nGPT: A Normalization Transformer with Hyperspherical Representation Learning

BriefGPT - AI 论文速递 ·

本文从几何视角揭示了Transformer操作的内部机制，说明层归一化将潜在特征限制在超球面上，塑造单词的语义表示。通过探究GPT-2模型，发现了早期层中的清晰查询-键注意力模式，并构建了关于注意力头部的特定主题性的先前观察。利用这些洞察，将Transformer描述为沿着超球面的词粒子的轨迹的建模过程。

迷宫解决变形器中的结构化世界表示

BriefGPT - AI 论文速递 ·

本文从几何视角揭示了Transformer操作的内部机制，说明层归一化将潜在特征限制在一个超球面上，从而使得注意力能够塑造单词在这个表面上的语义表示。通过对GPT-2模型进行探究，发现了早期层中的清晰查询-键注意力模式，并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察，给出了Transformer的直观理解，将其描述为沿着超球面的词粒子的轨迹的建模过程。

GTA：一种面向几何的多视角 Transformer 的注意机制

BriefGPT - AI 论文速递 ·