利用统计和近似理论理解变压器神经网络在内在低维数据上的扩展规律

本研究解决了变压器模型扩展规律缺乏严格理解的问题。通过建立新的统计估计和数学近似理论，提出了在低维流形数据上变压器泛化误差与训练数据规模和网络规模之间存在幂律关系，该关系依赖于数据内在维度。研究表明，数据的内在维度对变压器扩展规律具有重要影响，并且与实证观察结果高度一致。

增加 Transformer 模型的规模并不总能提高性能，模型对训练样本的记忆可以改善其泛化能力。我们提出了一个理论框架，揭示了 Transformer 的记忆过程与性能之间的动态关系，并通过 Hopfield 网络模拟其行为，设计了能量函数以解释注意力机制。实验结果验证了我们的理论。

Hopfield 网络 Transformer 泛化能力注意力机制神经网络统计记忆