重新思考Softmax:具有多项式激活的自注意力
原文中文,约300字,阅读约需1分钟。发表于: 。本文研究了传统上认为的Softmax注意力的有效性,揭示其成功主要源于训练过程中对注意力矩阵Frobenius范数的隐式正则化。我们探索了几种多项式激活函数,证明它们同样可以正则化该范数,且在多个计算机视觉和语言任务中的表现与Softmax相当或更好,揭示了超越Softmax的注意力机制的新可能性。
本文研究了Softmax注意力的有效性,发现其成功源于对注意力矩阵Frobenius范数的隐式正则化。同时探索了多项式激活函数,证明其在多个任务中的表现与Softmax相当或更好,揭示了新注意力机制的潜力。