Simplifying Transformer Architecture to the Minimum

本研究针对Transformer模型中多层感知器（MLP）组件的必要性进行探讨，提出其可能并非必需的问题。通过测试广泛使用的计算机视觉基准，结果显示简化后的Transformer架构在去除MLP、合并矩阵和采用对称相似度矩阵的情况下，能够节省多达90%的参数，同时保持与原始架构相似的分类性能。

研究表明，Transformer模型中的多层感知器（MLP）可能不是必需的。通过计算机视觉测试，简化后的Transformer在去除MLP、合并矩阵和使用对称相似度矩阵后，参数减少90%，性能仍与原始模型相似。

MLP Transformer architecture 参数减少性能计算机视觉