又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!

又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

清华大学陈键飞团队推出SageAttention,一种8位注意力机制,大幅提升大模型推理效率,实现2到2.7倍加速且无精度损失。通过平滑处理矩阵K和分块量化Q、K,解决量化精度问题。实验显示其在视频、图像、文本生成任务中表现优异,且易于集成。

🎯

关键要点

  • 清华大学陈键飞团队推出SageAttention,一种8位注意力机制,提升大模型推理效率。
  • SageAttention实现了2到2.7倍的推理加速,且无精度损失。
  • 通过平滑处理矩阵K和分块量化Q、K,解决量化精度问题。
  • SageAttention易于集成,可以一行代码替换当前最优的Attention接口。
  • 随着序列长度增加,注意力运算的时间开销成为网络优化的主要瓶颈。
  • 直接将注意力运算中的Q、K、P、V从FP16量化为INT8或FP8会导致精度下降。
  • 对K进行平滑处理和对Q、K进行分块INT8量化是解决精度问题的关键。
  • 对P、V采用FP16数据类型的矩阵乘法累加器,保证了精度和速度。
  • SageAttention在算子速度和模型端到端精度上表现优异,尤其在RTX4090上。
  • 实验结果显示SageAttention在不同序列长度下的速度优于FlashAttention2和xformers。
➡️

继续阅读