又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!
原文中文,约2900字,阅读约需7分钟。发表于: 。清华大学陈键飞团队推出SageAttention,一种8位注意力机制,大幅提升大模型推理效率,实现2到2.7倍加速且无精度损失。通过平滑处理矩阵K和分块量化Q、K,解决量化精度问题。实验显示其在视频、图像、文本生成任务中表现优异,且易于集成。
清华大学陈键飞团队推出SageAttention,一种8位注意力机制,大幅提升大模型推理效率,实现2到2.7倍加速且无精度损失。通过平滑处理矩阵K和分块量化Q、K,解决量化精度问题。实验显示其在视频、图像、文本生成任务中表现优异,且易于集成。