量子位 ·

小米给KV Cache减负80%！MiMo团队推出混合稀疏注意力架构

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

小米MiMo团队推出HySparse混合稀疏注意力架构，显著降低KV Cache的存储和计算开销，提升超长上下文建模效率。通过将“选择”和“缓存”交给Full Attention层，HySparse实现了高效的长距离信息访问，实验结果显示其在多项任务中表现优异。

🎯

关键要点

小米MiMo团队推出HySparse混合稀疏注意力架构，显著降低KV Cache的存储和计算开销。
HySparse通过将“选择”和“缓存”交给Full Attention层，实现高效的长距离信息访问。
在80B-A3BMoE模型实验中，仅保留5层Full Attention仍能保持甚至提升模型能力。
HySparse的设计灵感来源于学术界已有研究，利用相邻层之间的稳定token。
HySparse采用hybrid block结构，结合Full Attention和Sparse Attention层。
HySparse解决了Sparse Attention的两个核心问题：选择不再依赖proxy，Sparse层不引入额外KV Cache开销。
HySparse的每一层Sparse Attention包含全局稀疏和局部窗口的混合结构。
实验结果显示HySparse在多项任务中表现优异，尤其在80B MoE模型中超越全注意力基线。
小米MiMo计划在更大规模模型上进一步验证HySparse的潜力。

❓

延伸问答

HySparse混合稀疏注意力架构的主要优势是什么？

HySparse显著降低了KV Cache的存储和计算开销，同时提升了超长上下文建模的效率。

HySparse是如何处理长距离信息访问的？

HySparse通过将“选择”和“缓存”交给Full Attention层，实现高效的长距离信息访问。

HySparse在实验中表现如何？

实验结果显示HySparse在多项任务中表现优异，尤其在80B MoE模型中超越全注意力基线。

HySparse的设计灵感来源于哪些研究？

HySparse的设计灵感来源于学术界已有研究，特别是关于相邻层之间稳定token的观察。

HySparse如何解决Sparse Attention的核心问题？

HySparse通过将选择和缓存交给Full Attention层，避免了对proxy的依赖，并且不引入额外的KV Cache开销。

小米MiMo团队未来的计划是什么？

小米MiMo计划在更大规模模型上进一步验证HySparse的潜力，并探索降低Full Attention层数量的可能性。

🏷️

继续阅读

线上剧本杀「多房间 + 多角色 + 强流程」的实时音视频架构
线上剧本杀结合多房间、角色权限和严格流程，技术复杂度高于普通视频聊天。关键在于动态音频拓扑、信息隔离和流程引擎。DM可控制房间和广播信息，玩家可在不同房间...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
规模化架构：如何将视频会议从单服务器扩展到高可用系统
视频会议的扩展面临挑战，需分三个阶段进行架构设计：单节点阶段适合初期验证，水平扩展阶段需分离媒体处理与编排，以确保高可用性并消除单点故障。通过智能放置和自...
构建新一代 AI Token 算力服务平台：KeyCompute 技术架构剖析
KeyCompute 是一个 AI Token 算力服务平台，旨在帮助中小企业和开发者管理多模型混用、账号池和计费等复杂链路。该平台使用 Rust 语言构...
研究人员不满微软安全团队的做法公开爆出VS Code漏洞可窃取私有凭证
安全研究员Ammar Askar披露了Visual Studio Code中的高危漏洞，该漏洞可窃取GitHub OAuth Token，导致开发者仓库受...
本地多模态拳王Gemma 4 12B评测 | 无编码器架构详解
谷歌最新的Gemma 4 12B是一款轻量级多模态AI模型，采用无编码器架构，能够直接处理图像和音频，提升了效率和理解能力。其120亿参数使其在普通电脑上...