Simplifying Transformer Architecture to the Minimum
原文英文,约100词,阅读约需1分钟。发表于: 。本研究针对Transformer模型中多层感知器(MLP)组件的必要性进行探讨,提出其可能并非必需的问题。通过测试广泛使用的计算机视觉基准,结果显示简化后的Transformer架构在去除MLP、合并矩阵和采用对称相似度矩阵的情况下,能够节省多达90%的参数,同时保持与原始架构相似的分类性能。
研究表明,Transformer模型中的多层感知器(MLP)可能不是必需的。通过计算机视觉测试,简化后的Transformer在去除MLP、合并矩阵和使用对称相似度矩阵后,参数减少90%,性能仍与原始模型相似。