SUS Backpropagation: A Linear Backpropagation Algorithm for Long Inputs in Transformers
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种SUS反向传播算法,旨在提高变换器架构中长序列的计算效率。通过控制参数$c$,该算法切断大部分注意力权重的反向传播,将复杂度从$O(n^2)$降低到$O(nc)$,显著提升训练效率。
🎯
关键要点
- 本研究提出了一种SUS反向传播算法,旨在提高变换器架构中长序列的计算效率。
- 通过控制参数$c$,该算法切断大部分注意力权重的反向传播。
- 该算法将计算复杂度从$O(n^2)$降低到$O(nc)$,显著提升训练效率。
- 实验证明,切断99%的注意力梯度流仅导致约1%的梯度方差增加。
➡️