超越缩放定律:理解具有关联记忆的 Transformer 性能
原文中文,约500字,阅读约需2分钟。发表于: 。增加 Transformer 模型的大小并不总是导致性能提升,用经验缩放定律无法解释此现象。此外,模型记忆训练样本会改善泛化能力。我们提出了一个理论框架,揭示了基于 Transformer 的语言模型的记忆过程和性能动态。我们使用关联记忆的 Hopfield 网络来模拟 Transformer 的行为,使每个 Transformer...
增加Transformer模型大小不一定提升性能,模型记忆训练样本可改善泛化能力。研究者使用Hopfield网络模拟Transformer行为,设计了能量函数解释注意力机制,并通过实验证实了理论结果。