量子位 ·

记忆张量 × 商汤大装置：国产 GPGPU 推理成本反超 A100！

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

记忆张量与商汤大装置联合推出的国产GPGPU推理集群，性价比超越NVIDIA A100，提升了吞吐量和并发能力。通过“记忆—计算—调度”一体化设计，突破了传统性能限制，推动了大模型的商业化进程，标志着国产算力体系的重大进步。

🎯

关键要点

记忆张量与商汤大装置联合推出国产GPGPU推理集群，性价比超越NVIDIA A100。
集群在真实C端负载下实现单卡并发效率提升20%，吞吐提升75%。
MemOS与PD分离深度耦合，打破传统性能限制，推动大模型商业化进程。
PD分离与记忆结构结合，重构“记忆—计算—调度”整体体系，超越性能上限。
集群在严格SLA约束下，稳定运行于12台4P8D架构的商用集群。
MemOS的三层记忆结构与商汤大装置的基础设施形成体系化推理优化链路。
集群整体吞吐量提升超过75%，单卡并发能力提升约20%。
TTFT全程稳定小于2秒，KV Cache命中率显著提升，推理成本进一步降低。
国产GPU具备承载R1级C端业务的体系能力，推动行业推理架构的可行路线。
未来将继续深化合作，构建记忆驱动流水线推理底座，推动伴随式AI的发展。

❓

延伸问答

国产GPGPU推理集群的性价比如何？

国产GPGPU推理集群的性价比达到同代NVIDIA A100的150%。

记忆张量与商汤大装置的合作有什么创新之处？

他们的合作通过PD分离与记忆结构深度耦合，重构了“记忆—计算—调度”整体体系，突破了传统性能限制。

集群在真实C端负载下的性能提升如何？

集群在真实C端负载下实现单卡并发效率提升20%，吞吐量提升75%。

MemOS的记忆结构是如何设计的？

MemOS的记忆结构分为参数记忆、激活记忆和明文记忆，形成跨时间尺度的调度链路。

这项技术对大模型商业化有什么影响？

这项技术为大模型的商业化打开了全新的降本增效空间，具备“体系级”竞争力。

未来国产GPGPU的发展方向是什么？

未来将继续深化合作，构建记忆驱动流水线推理底座，推动伴随式AI的发展。

🏷️

继续阅读

Kimi新论文：把KVCache玩成新商业模式了
研究团队推出了Prefill-as-a-Service（PrFaaS），旨在解决大模型推理中的跨机房调度问题。该架构通过将Prefill计算卸载到专用集群...
就靠一张新地图，《原神》是怎么让我这个淡坑玩家回归的？
对于《原神》，最近上线的新版本“月之六”其实颇为特殊，因为按照它过往的更新规律，每年的4到6月份刚好卡在了一个尴尬的节点——前一个大版本的主线剧情高潮结束...
两个波兰人，用“风水”做了一款解谜游戏
“顺应自然”。来自波兰的二人游戏工作室Armed Chicken，有着两位非常“随意”的创始人。创始人Szymon Windak告诉我，进入游戏行业前，他...
这家俄罗斯科技巨头，正在助力中国开发者开拓俄语区市场
2026年4月16日，第三届Yandex Ads中国大会在深圳拉开帷幕，数百位来自游戏、应用出海企业及生态伙伴的参会者齐聚现场。对于普通玩家来说，Yand...
首测在即，《彩虹六号：攻势》办了一次玩家通气大会
3月29日这一天，我来到育碧上海办公楼的楼下，准备办理“入职”手续——不是真“入职”，我爱我现在的工作。主要是因为《彩虹六号：攻势》举办的闭门体验活动，代...
游戏视频的时代变化，都藏在这条榜单里
最近，我对《生化危机：安魂曲》又有了一些新认识，不太重要，但挺有趣。比如说，格蕾丝最开始抱起艾米莉时，小姑娘还神采奕奕，表现得很精神。直到逃出疗养院，会发...