以 ReLU 替代 Vision Transformers 中的 softmax

通过在视觉变换器上进行实验，我们发现当将注意力 softmax 替换为 ReLU 等点层激活时，通过将结果除以序列长度可以减轻准确性下降现象。我们在 ImageNet-21k 上对各种规模的视觉变换器进行训练的实验表明，对于计算扩展性而言，ReLU-attention 的性能可以接近或匹配 softmax-attention。

本文介绍了Transformer模型的自注意力机制和前馈神经网络，提出了使用额外层归一化模块的Softmax和ReLU相等的概念。研究发现ReLU可以处理大量键值槽以及在输入序列很长时表现更出色，并提出了一个全ReLU模型-ReLUFormer，在文档翻译等长序列任务中表现更好。

ReLU ReLUFormer Transformer模型 transformers 前馈神经网络自注意力机制