重新思考Softmax:具有多项式激活的自注意力

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文研究了Softmax注意力的有效性,发现其成功源于对注意力矩阵Frobenius范数的隐式正则化。同时探索了多项式激活函数,证明其在多个任务中的表现与Softmax相当或更好,揭示了新注意力机制的潜力。

原文中文,约300字,阅读约需1分钟。
阅读原文