量子位 ·

百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

上海交通大学与本智激活联合推出的SmallThinker大模型，专为低算力端侧设备设计，能够在普通手机上高效运行，提升AI隐私保护和使用便捷性。

🎯

关键要点

上海交通大学与本智激活联合推出SmallThinker大模型，专为低算力端侧设备设计。
SmallThinker能够在普通手机上高效运行，提升AI隐私保护和使用便捷性。
该模型采用原生设计，支持端侧算力、内存和存储特性，具有两个尺寸的稀疏模型。
SmallThinker在百元级硬件上实现了高达21倍的推理加速，显著优于同类解决方案。
模型架构包括双层稀疏架构、专家路由前置和混合稀疏注意力等核心技术特性。
SmallThinker兼容多种主流推理框架，降低开发者使用门槛。
PowerInfer是专为SmallThinker设计的端侧推理框架，提升推理速度和内存优化效果。
SmallThinker在多个权威评测基准上超越同尺寸及更大尺寸的开源模型。
在极限内存瓶颈场景下，SmallThinker表现出卓越的运行能力，推理速度远超竞争对手。
未来计划包括继续扩展模型能力和打造个人化智能体，提升AI的安全性和私密性。

❓

延伸问答

SmallThinker大模型的主要特点是什么？

SmallThinker大模型专为低算力端侧设备设计，能够在普通手机上高效运行，具有双层稀疏架构和混合稀疏注意力等核心技术特性。

SmallThinker在推理速度上有什么优势？

SmallThinker在百元级硬件上实现了高达21倍的推理加速，尤其在极限内存瓶颈场景下表现卓越。

PowerInfer框架的作用是什么？

PowerInfer是专为SmallThinker设计的端侧推理框架，提升推理速度和内存优化效果，降低开发者使用门槛。

SmallThinker如何保证用户隐私？

SmallThinker通过在本地设备上运行AI模型，确保用户的个人数据不被上传到云端，从而提升隐私保护。

SmallThinker与传统大模型的区别是什么？

SmallThinker是为端侧设备原生设计的，避免了传统大模型的压缩和降智，能够在低算力环境下高效运行。

未来SmallThinker的发展方向是什么？

未来SmallThinker计划继续扩展模型能力，并打造个人化智能体，以提升AI的安全性和私密性。

🏷️

继续阅读

微软 Build 2026 大会凸显对话式 AI 的新阶段
在微软Build开发者大会上，微软发布了MAI-Transcribe-1.5语音转文本模型和MAI-Voice-2文本转语音产品，提升了语音识别和合成语音...
首尔的目标：NVIDIA与韩国如何共同构建AI的未来
NVIDIA创始人兼首席执行官黄仁勋访问韩国，强调AI供应链的重要性，并指出韩国在机器人和物理AI领域的潜力。他认为韩国是AI和游戏的中心，未来将有更多投资机会。
粉笔科技的人大讲座事件的说明与致歉
粉笔网CEO张小龙在人民大学的讲座中因言辞不当引发争议。他提到AI对就业的影响，认为体制内工作机会减少，并建议学生利用AI工具提升竞争力。因现场反应冷淡，...
WWDC26 开幕在即，今年有哪些看点值得关注？
今年WWDC全球开发者大会将于6月9日举行。Apple将在Siri中引入新AI大模型，可能与Google Gemini合作。iOS 27将新增Siri唤醒...
AI智能体安全四件套：从PII泄露到400美元账单的教训
本文分享了作者在开发AI智能体时的经验，强调了四个安全措施：输入检查、输出检查、成本断路器和工具调用检查。这些措施能有效避免隐私泄露和高额账单，确保AI安全运行。
是时候造一台 AI 时代的手机了｜AIDONE 第五期
在AI时代，手机成为AI应用的最佳终端。vivo与爱范儿将于6月10日在广州举办AIDONE第五期，讨论如何将AI更好地融入手机工作流，提升用户体验。参与...