量子位 ·

9B端侧开源模型跑通百万上下文，面壁全新稀疏-线性混合注意力架构SALA立功了！

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

面壁智能推出SALA混合注意力架构，支持处理百万上下文，显著提升长文本推理效率。MiniCPM-SALA模型在5090显卡上成功运行，已开源，推动端侧智能发展。

🎯

关键要点

面壁智能推出SALA混合注意力架构，支持处理百万上下文，提升长文本推理效率。
MiniCPM-SALA模型在5090显卡上成功运行，并已开源。
SALA架构结合75%线性注意力与25%稀疏注意力，提升长文本处理能力。
线性注意力模块使用Lightning Attention，稀疏注意力模块使用InfLLM v2，确保高效协同。
MiniCPM-SALA在显存占用和计算效率上表现优异，适用于端侧智能。
2026稀疏算子加速大奖赛（SOAR）旨在探索MiniCPM-SALA在长文本推理上的性能极限。
面壁智能的目标是将长上下文能力应用于智能终端，推动端侧智能发展。
注意力机制的优化是长上下文处理的关键，行业共识已形成。
面壁智能通过开源和比赛推动开发者社区，降低长文本推理的部署成本。

❓

延伸问答

SALA混合注意力架构的主要特点是什么？

SALA架构结合75%线性注意力与25%稀疏注意力，显著提升长文本推理效率，支持处理百万上下文。

MiniCPM-SALA模型的运行效果如何？

MiniCPM-SALA模型在5090显卡上成功运行，显存占用低且计算效率高，能够处理百万上下文。

为什么需要混合注意力机制来处理长上下文？

混合注意力机制能降低计算复杂度，避免传统全注意力模型在长上下文处理中的显存瓶颈和精度损失。

2026稀疏算子加速大奖赛的目的是什么？

该比赛旨在探索MiniCPM-SALA在长文本推理上的性能极限，推动端侧智能的发展。

SALA架构如何优化注意力机制？

SALA架构通过线性与稀疏注意力的结合，提升了长文本处理能力，确保高效协同与超强的长度外推。

面壁智能的长文本推理目标是什么？

面壁智能的目标是将长上下文能力应用于智能终端，推动端侧智能的发展，降低部署成本。

🏷️

继续阅读

VoidZero团队已加入Cloudflare
VoidZero团队已加入Cloudflare，Vite及其相关项目将继续保持开源和中立。Cloudflare承诺投资100万美元支持Vite生态系统的维...
开源维护者的困境
开源维护者面临困境，贡献者与维护者之间的社会契约逐渐崩溃。AI的介入虽然提供帮助，但也引发责任和审核标准的疑问。维护者的工作量激增，未处理的拉取请求不断增...
江波龙携全栈端侧AI存储应用参加COMPUTEX 2026
江波龙在COMPUTEX 2026展会上展示了全栈端侧AI存储新品，包括针对AI推理的AIDIMM和AILPBGA内存产品，解决了内存容量不足的问题。同时...
线上剧本杀「多房间 + 多角色 + 强流程」的实时音视频架构
线上剧本杀结合多房间、角色权限和严格流程，技术复杂度高于普通视频聊天。关键在于动态音频拓扑、信息隔离和流程引擎。DM可控制房间和广播信息，玩家可在不同房间...
规模化架构：如何将视频会议从单服务器扩展到高可用系统
视频会议的扩展面临挑战，需分三个阶段进行架构设计：单节点阶段适合初期验证，水平扩展阶段需分离媒体处理与编排，以确保高可用性并消除单点故障。通过智能放置和自...
构建新一代 AI Token 算力服务平台：KeyCompute 技术架构剖析
KeyCompute 是一个 AI Token 算力服务平台，旨在帮助中小企业和开发者管理多模型混用、账号池和计费等复杂链路。该平台使用 Rust 语言构...