研究发现,增大 Transformer 模型不一定提升性能,但记忆训练样本能改善泛化能力。通过 Hopfield 网络模拟 Transformer,揭示其记忆过程和性能动态。设计的能量函数为注意力机制提供新解释,并构建全局能量函数捕捉层次结构。实验验证理论,证明在特定条件下,交叉熵损失下界约为1。
完成下面两步后,将自动完成登录并继续当前操作。