以 ReLU 替代 Vision Transformers 中的 softmax
原文中文,约200字,阅读约需1分钟。发表于: 。通过在视觉变换器上进行实验,我们发现当将注意力 softmax 替换为 ReLU 等点层激活时,通过将结果除以序列长度可以减轻准确性下降现象。我们在 ImageNet-21k 上对各种规模的视觉变换器进行训练的实验表明,对于计算扩展性而言,ReLU-attention 的性能可以接近或匹配 softmax-attention。
本文介绍了Transformer模型的自注意力机制和前馈神经网络,提出了使用额外层归一化模块的Softmax和ReLU相等的概念。研究发现ReLU可以处理大量键值槽以及在输入序列很长时表现更出色,并提出了一个全ReLU模型-ReLUFormer,在文档翻译等长序列任务中表现更好。