注意力的 I/O 复杂性：闪快注意力有多优化？

FlashAttention 算法解决了自我注意力在 Transformer 架构中的 I/O 复杂性问题，并且建立了通信复杂性与 I/O 复杂性之间的联系。

研究者提出了HyperAttention近似注意力机制，用于解决大型语言模型中的计算挑战。通过引入两个参数来衡量问题难度，他们实现了线性时间采样算法，并通过实证结果证明了其速度改进。在不同数据集上的实验中，HyperAttention在推理时间和困惑度方面都取得了显著提升。