Simplifying Transformer Architecture to the Minimum
研究表明,Transformer模型中的多层感知器(MLP)可能不是必需的。通过计算机视觉测试,简化后的Transformer在去除MLP、合并矩阵和使用对称相似度矩阵后,参数减少90%,性能仍与原始模型相似。
原文英文,约100词,阅读约需1分钟。
研究表明,Transformer模型中的多层感知器(MLP)可能不是必需的。通过计算机视觉测试,简化后的Transformer在去除MLP、合并矩阵和使用对称相似度矩阵后,参数减少90%,性能仍与原始模型相似。