小米给KV Cache减负80%!MiMo团队推出混合稀疏注意力架构
💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
小米MiMo团队推出HySparse混合稀疏注意力架构,显著降低KV Cache的存储和计算开销,提升超长上下文建模效率。通过将“选择”和“缓存”交给Full Attention层,HySparse实现了高效的长距离信息访问,实验结果显示其在多项任务中表现优异。
🎯
关键要点
- 小米MiMo团队推出HySparse混合稀疏注意力架构,显著降低KV Cache的存储和计算开销。
- HySparse通过将“选择”和“缓存”交给Full Attention层,实现高效的长距离信息访问。
- 在80B-A3BMoE模型实验中,仅保留5层Full Attention仍能保持甚至提升模型能力。
- HySparse的设计灵感来源于学术界已有研究,利用相邻层之间的稳定token。
- HySparse采用hybrid block结构,结合Full Attention和Sparse Attention层。
- HySparse解决了Sparse Attention的两个核心问题:选择不再依赖proxy,Sparse层不引入额外KV Cache开销。
- HySparse的每一层Sparse Attention包含全局稀疏和局部窗口的混合结构。
- 实验结果显示HySparse在多项任务中表现优异,尤其在80B MoE模型中超越全注意力基线。
- 小米MiMo计划在更大规模模型上进一步验证HySparse的潜力。
➡️