机器之心 ·

清华稀疏Attention，无需训练加速一切模型！

💡 原文中文，约2600字，阅读约需6分钟。

📝

内容提要

清华大学陈键飞团队提出的稀疏注意力机制SpargeAttn，无需训练即可加速多种模型，推理速度提升4-7倍，同时保持端到端精度，有效解决长序列任务的计算瓶颈。

🎯

关键要点

清华大学陈键飞团队提出的稀疏注意力机制SpargeAttn，无需训练即可加速多种模型。
SpargeAttn实现了4-7倍的推理速度提升，同时保持端到端精度。
Attention的计算复杂度随着序列长度呈平方增长，成为长序列任务的主要计算瓶颈。
SpargeAttn可以用于语言、视频、图像生成等大模型，且对中等长度的上下文（如4-32K）也有加速效果。
实现通用的、无需训练的稀疏Attention面临通用性和可用性两大挑战。
研究团队提出了一种快速预测P矩阵稀疏部分的算法，并在GPU Warp级别上实现了稀疏Online Softmax算法。
SpargeAttn在各模型上实现了无需训练的加速效果，同时保证了端到端的精度。
SpargeAttn的稀疏预测部分经过优化，Overhead几乎可以忽略，提升了实际使用效果。

❓

延伸问答

SpargeAttn是什么？

SpargeAttn是一种稀疏注意力机制，能够在无需训练的情况下加速多种模型的推理速度。

SpargeAttn的推理速度提升有多大？

SpargeAttn实现了4-7倍的推理速度提升，同时保持端到端的精度。

SpargeAttn可以应用于哪些模型？

SpargeAttn可以用于语言、视频、图像生成等多种大模型。

SpargeAttn面临哪些挑战？

SpargeAttn面临通用性和可用性两大挑战，分别涉及不同模型的稀疏形状和预测的准确性与效率。

SpargeAttn是如何解决稀疏性问题的？

研究团队提出了一种快速预测P矩阵稀疏部分的算法，并在GPU Warp级别上实现了稀疏Online Softmax算法。

SpargeAttn的优化效果如何？

SpargeAttn的稀疏预测部分经过优化，Overhead几乎可以忽略，提升了实际使用效果。

🏷️

继续阅读

在线教程丨高性能与易部署兼得，DeepSeek-V4-Flash模型参数284B，简单任务可媲美1.6T Pro版模型
DeepSeek V4 最近发布，分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。Pro 版本参数达到 1.6T，...
Claude Mythos Preview 模型能力解析：大模型攻防实测与企业应对建议
绿盟科技的报告分析了Anthropic的Claude Mythos模型，指出其在0day漏洞挖掘和网络攻击中的高效能，可能增加开源供应链的风险。报告建议企...
Zed AI 白嫖免费模型，搭配 DeepSeek v4，玩转 Agent 编程技巧 - 曦远Code
Zed 编辑器功能灵活，支持多种 AI 模型，用户可通过 ACP 协议配置 agent。虽然 AI 功能有限，但适合日常开发和文档生成，提供免费模型使用，...
腾讯开源手机端离线翻译模型，仅0.4G，支持33种语言
腾讯混元推出了开源的离线翻译模型Hy-MT1.5-1.8B-1.25bit，支持33种语言，压缩至440MB，翻译质量优于谷歌翻译。该模型可在手机本地运行...
如何将小米CodingPlan的Mimo模型接入到OpenClaw
小米推出了Token Plan，开发者可获得免费额度。用户需将MiMo接入龙虾，配置文件中需删除“auth”字段并新增provider。测试显示速度良好，...
小米双模型正式开源！MiMo-V2.5-Pro无中断肝出“macOS”：54个应用全开、浏览器真能冲浪
小米发布的MiMo-V2.5 Pro模型在AI领域取得显著进展，具备强大的长周期任务处理和模糊指令遵循能力。该模型在国际基准测试中表现优异，开源后提高了T...