小红花·文摘

小米MiMo团队推出HySparse混合稀疏注意力架构，显著降低KV Cache的存储和计算开销，提升超长上下文建模效率。通过将“选择”和“缓存”交给Full Attention层，HySparse实现了高效的长距离信息访问，实验结果显示其在多项任务中表现优异。