该论文提出了将Transformer块表示为单一的Hopfield网络的新视角,并发现对称交互矩阵阻碍了图像识别任务的性能。通过破坏对称效果,可以将对称并行化的MLP-Mixer的性能过渡到普通MLP-Mixer的性能。这些发现为Transformer和MLP-Mixer的内在特性及其理论基础提供了见解。
完成下面两步后,将自动完成登录并继续当前操作。