9B端侧开源模型跑通百万上下文,面壁全新稀疏-线性混合注意力架构SALA立功了!

💡 原文中文,约4800字,阅读约需12分钟。
📝

内容提要

面壁智能推出SALA混合注意力架构,支持处理百万上下文,显著提升长文本推理效率。MiniCPM-SALA模型在5090显卡上成功运行,已开源,推动端侧智能发展。

🎯

关键要点

  • 面壁智能推出SALA混合注意力架构,支持处理百万上下文,提升长文本推理效率。
  • MiniCPM-SALA模型在5090显卡上成功运行,并已开源。
  • SALA架构结合75%线性注意力与25%稀疏注意力,提升长文本处理能力。
  • 线性注意力模块使用Lightning Attention,稀疏注意力模块使用InfLLM v2,确保高效协同。
  • MiniCPM-SALA在显存占用和计算效率上表现优异,适用于端侧智能。
  • 2026稀疏算子加速大奖赛(SOAR)旨在探索MiniCPM-SALA在长文本推理上的性能极限。
  • 面壁智能的目标是将长上下文能力应用于智能终端,推动端侧智能发展。
  • 注意力机制的优化是长上下文处理的关键,行业共识已形成。
  • 面壁智能通过开源和比赛推动开发者社区,降低长文本推理的部署成本。
➡️

继续阅读