Softplus Attention with Re-weighting Enhances Length Extrapolation Capability in Large Language Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文探讨了传统Softmax注意力在推理令牌长度增加时的数值不稳定和性能下降问题。提出了一种新颖的Softplus注意力机制,结合动态长度尺度因子和重新加权,显著提升了大型语言模型在处理长序列时的稳定性和性能。

🎯

关键要点

  • 传统Softmax注意力在推理令牌长度增加时存在数值不稳定和性能下降的问题。
  • 研究提出了一种新颖的Softplus注意力机制,结合动态长度尺度因子以提高模型表现。
  • 该机制通过重新加权显著提升了大型语言模型在处理长序列时的稳定性和性能。
➡️

继续阅读