Conv-Basis：Transformer 中高效注意力推理与梯度计算的新范式

大型语言模型对世界产生了深远影响，其中自注意机制是 transformer 在大型语言模型中取得成功的关键。然而，长度为 n 的输入序列带来的二次计算复杂度 O (n^2) 一直是对提高和扩展更长上下文的一个难以克服的障碍。本文利用注意力矩阵的卷积结构开发了一种有效的注意力计算近似方法，提出了一个类似秩基系统的卷积基系统，表明任意下三角（注意力）矩阵总是可以在该基系统中分解为 k...

本研究提出了一种基于卷积结构的注意力计算近似方法，可以将注意力矩阵分解为卷积矩阵，实现几乎线性时间的计算。该方法适用于任何输入矩阵，可加速 transformer 注意力计算，实现更长上下文的应用。