通过正交内存实现线性关注
原文中文,约500字,阅读约需1分钟。发表于: 。通过使用正交内存(LAVO),我们提出了线性注意力方法的一种改进,通过正交分解将上下文压缩为固定大小的正交内存,同时最小化上下文中的冗余,并通过嵌入相对位置编码来改善外推能力。实验证明,LAVO 极大地提高了因果语言模型的效率,并在最佳外推性能上优于其他高效方法。
HyperAttention是用于解决大型语言模型计算挑战的近似注意力机制,具有模块化设计,能够与其他底层实现集成。通过使用局部敏感哈希来识别大条目,HyperAttention比现有方法更快,能够加快推理时间并提高困惑度。对于更大的上下文长度,HyperAttention能够实现5倍的加速。