HyPE:带有双曲偏差的相对位置编码的注意力
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种使用超几何位置编码(HyPE)来编码令牌相对位置的新方法,支持梯度反向传播。通过仔细的超参数选择,HyPE 可以近似于 ALiBi 的注意力偏置,具有良好的泛化能力。
🎯
关键要点
- 本研究提出了一种使用超几何位置编码(HyPE)来编码令牌相对位置的新方法。
- HyPE 利用超几何函数的特性来实现对令牌顺序的约束。
- 该方法通过连接操作和矩阵乘法实现相对距离的编码,确保与 FlashAttention-2 的兼容性。
- HyPE 支持对编码中任何潜在可学习参数的梯度反向传播。
- 通过超参数选择,HyPE 可以近似于 ALiBi 的注意力偏置,具有良好的泛化能力。
- HyPE 为超出预训练长度的上下文提供了有前途的泛化能力。
- 对 HyPE 的实验评估可作为未来研究的一个方向。
➡️