小红花·文摘

本文探讨了传统Softmax注意力在推理令牌长度增加时的数值不稳定和性能下降问题。提出了一种新颖的Softplus注意力机制，结合动态长度尺度因子和重新加权，显著提升了大型语言模型在处理长序列时的稳定性和性能。

Softplus Attention with Re-weighting Enhances Length Extrapolation Capability in Large Language Models

BriefGPT - AI 论文速递 ·

文章介绍了几种激活函数及其优缺点。GELU和Mish能缓解梯度消失和ReLU死亡问题，但计算复杂。SiLU（Swish）通过Sigmoid加权实现，优点相似但计算量大。Softplus将输入转换为0到∞，稳定收敛，缓解梯度问题，但计算复杂。这些函数在PyTorch中用于自然语言处理模型如Transformer。

PyTorch中的激活函数（四）

DEV Community ·