小红花·文摘

研究发现，增大 Transformer 模型不一定提升性能，但记忆训练样本能改善泛化能力。通过 Hopfield 网络模拟 Transformer，揭示其记忆过程和性能动态。设计的能量函数为注意力机制提供新解释，并构建全局能量函数捕捉层次结构。实验验证理论，证明在特定条件下，交叉熵损失下界约为1。