HyPE:带有双曲偏差的相对位置编码的注意力

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种使用超几何位置编码(HyPE)来编码令牌相对位置的新方法,支持梯度反向传播。通过仔细的超参数选择,HyPE 可以近似于 ALiBi 的注意力偏置,具有良好的泛化能力。

🎯

关键要点

  • 本研究提出了一种使用超几何位置编码(HyPE)来编码令牌相对位置的新方法。
  • HyPE 利用超几何函数的特性来实现对令牌顺序的约束。
  • 该方法通过连接操作和矩阵乘法实现相对距离的编码,确保与 FlashAttention-2 的兼容性。
  • HyPE 支持对编码中任何潜在可学习参数的梯度反向传播。
  • 通过超参数选择,HyPE 可以近似于 ALiBi 的注意力偏置,具有良好的泛化能力。
  • HyPE 为超出预训练长度的上下文提供了有前途的泛化能力。
  • 对 HyPE 的实验评估可作为未来研究的一个方向。
➡️

继续阅读