9B端侧开源模型跑通百万上下文,面壁全新稀疏-线性混合注意力架构SALA立功了!
💡
原文中文,约4800字,阅读约需12分钟。
📝
内容提要
面壁智能推出SALA混合注意力架构,支持处理百万上下文,显著提升长文本推理效率。MiniCPM-SALA模型在5090显卡上成功运行,已开源,推动端侧智能发展。
🎯
关键要点
- 面壁智能推出SALA混合注意力架构,支持处理百万上下文,提升长文本推理效率。
- MiniCPM-SALA模型在5090显卡上成功运行,并已开源。
- SALA架构结合75%线性注意力与25%稀疏注意力,提升长文本处理能力。
- 线性注意力模块使用Lightning Attention,稀疏注意力模块使用InfLLM v2,确保高效协同。
- MiniCPM-SALA在显存占用和计算效率上表现优异,适用于端侧智能。
- 2026稀疏算子加速大奖赛(SOAR)旨在探索MiniCPM-SALA在长文本推理上的性能极限。
- 面壁智能的目标是将长上下文能力应用于智能终端,推动端侧智能发展。
- 注意力机制的优化是长上下文处理的关键,行业共识已形成。
- 面壁智能通过开源和比赛推动开发者社区,降低长文本推理的部署成本。
➡️