小红花·文摘

本研究提出了一种基于卷积结构的注意力计算近似方法，可以将注意力矩阵分解为卷积矩阵，实现几乎线性时间的计算。该方法适用于任何输入矩阵，可加速 transformer 注意力计算，实现更长上下文的应用。