小米给KV Cache减负80%!MiMo团队推出混合稀疏注意力架构

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

小米MiMo团队推出HySparse混合稀疏注意力架构,显著降低KV Cache的存储和计算开销,提升超长上下文建模效率。通过将“选择”和“缓存”交给Full Attention层,HySparse实现了高效的长距离信息访问,实验结果显示其在多项任务中表现优异。

🎯

关键要点

  • 小米MiMo团队推出HySparse混合稀疏注意力架构,显著降低KV Cache的存储和计算开销。
  • HySparse通过将“选择”和“缓存”交给Full Attention层,实现高效的长距离信息访问。
  • 在80B-A3BMoE模型实验中,仅保留5层Full Attention仍能保持甚至提升模型能力。
  • HySparse的设计灵感来源于学术界已有研究,利用相邻层之间的稳定token。
  • HySparse采用hybrid block结构,结合Full Attention和Sparse Attention层。
  • HySparse解决了Sparse Attention的两个核心问题:选择不再依赖proxy,Sparse层不引入额外KV Cache开销。
  • HySparse的每一层Sparse Attention包含全局稀疏和局部窗口的混合结构。
  • 实验结果显示HySparse在多项任务中表现优异,尤其在80B MoE模型中超越全注意力基线。
  • 小米MiMo计划在更大规模模型上进一步验证HySparse的潜力。
➡️

继续阅读