以 ReLU 替代 Vision Transformers 中的 softmax

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文介绍了Transformer模型的自注意力机制和前馈神经网络,提出了使用额外层归一化模块的Softmax和ReLU相等的概念。研究发现ReLU可以处理大量键值槽以及在输入序列很长时表现更出色,并提出了一个全ReLU模型-ReLUFormer,在文档翻译等长序列任务中表现更好。

原文中文,约200字,阅读约需1分钟。
阅读原文