量子位 ·

小米给KV Cache减负80%！MiMo团队推出混合稀疏注意力架构

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

小米MiMo团队推出HySparse混合稀疏注意力架构，显著降低KV Cache的存储和计算开销，提升超长上下文建模效率。通过将“选择”和“缓存”交给Full Attention层，HySparse实现了高效的长距离信息访问，实验结果显示其在多项任务中表现优异。

🎯

关键要点

小米MiMo团队推出HySparse混合稀疏注意力架构，显著降低KV Cache的存储和计算开销。
HySparse通过将“选择”和“缓存”交给Full Attention层，实现高效的长距离信息访问。
在80B-A3BMoE模型实验中，仅保留5层Full Attention仍能保持甚至提升模型能力。
HySparse的设计灵感来源于学术界已有研究，利用相邻层之间的稳定token。
HySparse采用hybrid block结构，结合Full Attention和Sparse Attention层。
HySparse解决了Sparse Attention的两个核心问题：选择不再依赖proxy，Sparse层不引入额外KV Cache开销。
HySparse的每一层Sparse Attention包含全局稀疏和局部窗口的混合结构。
实验结果显示HySparse在多项任务中表现优异，尤其在80B MoE模型中超越全注意力基线。
小米MiMo计划在更大规模模型上进一步验证HySparse的潜力。

🏷️

继续阅读

早报｜小米发布手机版龙虾/M5 Max跑分曝光：或登顶Mac性能榜/魏建军就魏牌海报抄袭道歉
M5 Max芯片的早期跑分显示其单核和多核性能超越前代，可能成为Mac性能之最。甲骨文因AI数据中心扩张面临现金流压力，计划裁员数千人。苹果MacBook...
如何构建一个适用于生产的WebRTC语音代理架构
本文介绍了使用LiveKit进行音频通话的JavaScript代码，涵盖连接、断开、重连等功能，并处理音频轨道播放和麦克风权限。用户可通过按钮开始或结束通话。
面向全球规模的架构：深入了解DoorDash统一的可组合Dasher入职平台
DoorDash重建了Dasher入职系统，采用统一的模块化工作流程平台，以加速全球扩展并简化地区复杂性。新系统取代了旧的分散架构，提供一致的入职体验，减...
MOSS-TTS：基于 CAT 架构的解耦式生产级语音生成模型；打破单细胞分析壁垒：Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准
MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具，克服了单一模型在复杂场景中的局限，支持高保真语音、对话和实时交互，适用...
美食记录——朱富贵海鲜火锅
朱富贵海鲜火锅是一家人均消费约¥84的网红自助火锅店，提供十二种汤底，菜品新鲜但分类不明显。排队时间较长，服务效率低，整体体验适合海鲜爱好者。
布鲁斯·莫姆贾恩：新演讲
我一直想做关于预写日志（WAL）的演讲，随着Postgres对WAL功能的依赖增加，演讲内容逐渐丰富，最终形成了103张幻灯片。

小米给KV Cache减负80%！MiMo团队推出混合稀疏注意力架构

内容提要

关键要点

标签

继续阅读