Conv-Basis:Transformer 中高效注意力推理与梯度计算的新范式

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

本研究提出了一种基于卷积结构的注意力计算近似方法,可以将注意力矩阵分解为卷积矩阵,实现几乎线性时间的计算。该方法适用于任何输入矩阵,可加速 transformer 注意力计算,实现更长上下文的应用。

🎯

关键要点

  • 本研究提出了一种基于卷积结构的注意力计算近似方法。

  • 该方法将注意力矩阵分解为卷积矩阵,实现几乎线性时间的计算。

  • 适用于任何输入矩阵,能够加速 transformer 注意力计算。

  • 解决了长度为 n 的输入序列带来的二次计算复杂度 O(n^2) 的问题。

  • 利用快速傅里叶变换(FFT)在 O(knd log n) 的时间内计算注意力推理。

  • 当 kd = n^{o(1)} 时,算法实现了几乎线性时间,即 n^{1+o(1)}。

  • 注意力的训练前向和反向梯度也可以在 n^{1+o(1)} 内计算。

  • 避免明确计算 n×n 的注意力矩阵,减轻二次计算复杂度。

➡️

继续阅读