信息熵不变性:增强注意力机制中的长度外推

📝

内容提要

本研究解决了大型语言模型在自然语言处理中的长度外推能力不足的问题。通过引入基于信息熵不变性的创新方法,提出了两种新的缩放温度:InfoScale和CosScale,显著提升了长度外推性能并达到了最新的研究水平。实验结果显示,该方法在GAU-α模型上实现了超越七种现有方法的表现,有助于改善长范围上下文处理中的注意力得分稀释问题。

➡️

继续阅读