Conv-Basis:Transformer 中高效注意力推理与梯度计算的新范式
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本研究提出了一种基于卷积结构的注意力计算近似方法,可以将注意力矩阵分解为卷积矩阵,实现几乎线性时间的计算。该方法适用于任何输入矩阵,可加速 transformer 注意力计算,实现更长上下文的应用。
🎯
关键要点
-
本研究提出了一种基于卷积结构的注意力计算近似方法。
-
该方法将注意力矩阵分解为卷积矩阵,实现几乎线性时间的计算。
-
适用于任何输入矩阵,能够加速 transformer 注意力计算。
-
解决了长度为 n 的输入序列带来的二次计算复杂度 O(n^2) 的问题。
-
利用快速傅里叶变换(FFT)在 O(knd log n) 的时间内计算注意力推理。
-
当 kd = n^{o(1)} 时,算法实现了几乎线性时间,即 n^{1+o(1)}。
-
注意力的训练前向和反向梯度也可以在 n^{1+o(1)} 内计算。
-
避免明确计算 n×n 的注意力矩阵,减轻二次计算复杂度。
🏷️
标签
➡️