超越缩放定律：理解具有关联记忆的 Transformer 性能

增加 Transformer 模型的大小并不总是导致性能提升，用经验缩放定律无法解释此现象。此外，模型记忆训练样本会改善泛化能力。我们提出了一个理论框架，揭示了基于 Transformer 的语言模型的记忆过程和性能动态。我们使用关联记忆的 Hopfield 网络来模拟 Transformer 的行为，使每个 Transformer...

增加Transformer模型大小不一定提升性能，模型记忆训练样本可改善泛化能力。研究者使用Hopfield网络模拟Transformer行为，设计了能量函数解释注意力机制，并通过实验证实了理论结果。

Hopfield网络 Transformer模型 transformer 性能提升泛化能力注意力机制