量子位 ·

记忆张量 × 商汤大装置：国产 GPGPU 推理成本反超 A100！

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

记忆张量与商汤大装置联合推出的国产GPGPU推理集群，性价比超越NVIDIA A100，提升了吞吐量和并发能力。通过“记忆—计算—调度”一体化设计，突破了传统性能限制，推动了大模型的商业化进程，标志着国产算力体系的重大进步。

🎯

关键要点

记忆张量与商汤大装置联合推出国产GPGPU推理集群，性价比超越NVIDIA A100。
集群在真实C端负载下实现单卡并发效率提升20%，吞吐提升75%。
MemOS与PD分离深度耦合，打破传统性能限制，推动大模型商业化进程。
PD分离与记忆结构结合，重构“记忆—计算—调度”整体体系，超越性能上限。
集群在严格SLA约束下，稳定运行于12台4P8D架构的商用集群。
MemOS的三层记忆结构与商汤大装置的基础设施形成体系化推理优化链路。
集群整体吞吐量提升超过75%，单卡并发能力提升约20%。
TTFT全程稳定小于2秒，KV Cache命中率显著提升，推理成本进一步降低。
国产GPU具备承载R1级C端业务的体系能力，推动行业推理架构的可行路线。
未来将继续深化合作，构建记忆驱动流水线推理底座，推动伴随式AI的发展。

🏷️

继续阅读

科尔维特ZR1X混合动力车以低廉的成本超越百万美元的跑车
新款C8 Corvette内饰配备三块高分辨率屏幕，左侧触摸屏用于启动控制和性能数据。碳纤维把手取代传统开关，提升乘客体验。性能牵引管理系统根据驾驶者技能...
彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器
商汤科技与南洋理工大学推出NEO-unify，重构多模态模型，去除视觉编码器和变分自编码器，实现统一的端到端架构。该模型通过混合变换器架构，提升视觉与语言...
向量存储成本降低 85%：用 Amazon S3 Vectors 构建企业级多平台统一知识库
未来技术架构将实现实时、全球化和安全的演进。通过引入 Webhook 通知机制，实现秒级实时同步，确保知识库更新。同时，利用 Amazon Nova 模型...
布鲁斯·莫姆贾恩：新演讲
我一直想做关于预写日志（WAL）的演讲，随着Postgres对WAL功能的依赖增加，演讲内容逐渐丰富，最终形成了103张幻灯片。
NanoClaw可以将每个AI代理放入自己的Docker容器中，以应对OpenClaw的安全问题
机器人访问WhatsApp面临挑战。大多数OpenClaw用户使用WhatsApp，但没有商业账户无法创建新用户。WhatsApp连接依赖于Baileys...
扩展人类判断：Dropbox如何利用大型语言模型提升RAG系统的标注效率
Dropbox通过结合人类标注和大型语言模型（LLMs）生成的标签，提升了文档检索的相关性和标注效率。尽管LLM存在局限性，但人类校准显著改善了RAG系统的性能。

记忆张量 × 商汤大装置：国产 GPGPU 推理成本反超 A100！

内容提要

关键要点

标签

继续阅读