小米给KV Cache减负80%!MiMo团队推出混合稀疏注意力架构

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

小米MiMo团队推出HySparse混合稀疏注意力架构,显著降低KV Cache的存储和计算开销,提升超长上下文建模效率。通过将“选择”和“缓存”交给Full Attention层,HySparse实现了高效的长距离信息访问,实验结果显示其在多项任务中表现优异。

🎯

关键要点

  • 小米MiMo团队推出HySparse混合稀疏注意力架构,显著降低KV Cache的存储和计算开销。
  • HySparse通过将“选择”和“缓存”交给Full Attention层,实现高效的长距离信息访问。
  • 在80B-A3BMoE模型实验中,仅保留5层Full Attention仍能保持甚至提升模型能力。
  • HySparse的设计灵感来源于学术界已有研究,利用相邻层之间的稳定token。
  • HySparse采用hybrid block结构,结合Full Attention和Sparse Attention层。
  • HySparse解决了Sparse Attention的两个核心问题:选择不再依赖proxy,Sparse层不引入额外KV Cache开销。
  • HySparse的每一层Sparse Attention包含全局稀疏和局部窗口的混合结构。
  • 实验结果显示HySparse在多项任务中表现优异,尤其在80B MoE模型中超越全注意力基线。
  • 小米MiMo计划在更大规模模型上进一步验证HySparse的潜力。

延伸问答

HySparse混合稀疏注意力架构的主要优势是什么?

HySparse显著降低了KV Cache的存储和计算开销,同时提升了超长上下文建模的效率。

HySparse是如何处理长距离信息访问的?

HySparse通过将“选择”和“缓存”交给Full Attention层,实现高效的长距离信息访问。

HySparse在实验中表现如何?

实验结果显示HySparse在多项任务中表现优异,尤其在80B MoE模型中超越全注意力基线。

HySparse的设计灵感来源于哪些研究?

HySparse的设计灵感来源于学术界已有研究,特别是关于相邻层之间稳定token的观察。

HySparse如何解决Sparse Attention的核心问题?

HySparse通过将选择和缓存交给Full Attention层,避免了对proxy的依赖,并且不引入额外的KV Cache开销。

小米MiMo团队未来的计划是什么?

小米MiMo计划在更大规模模型上进一步验证HySparse的潜力,并探索降低Full Attention层数量的可能性。

➡️

继续阅读