宝玉的分享 ·

DeepSeek 开源周第 6 天彩蛋 – DeepSeek-V3/R1 推理系统概览

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

DeepSeek-V3/R1通过跨节点专家并行优化吞吐量和延迟，提高GPU计算效率。采用双批次重叠策略降低通信开销，实现负载均衡。服务统计显示，H800节点的输入输出性能良好，成本利润率达到545%。

🎯

关键要点

DeepSeek-V3/R1通过跨节点专家并行优化吞吐量和延迟，提高GPU计算效率。
采用双批次重叠策略降低通信开销，实现负载均衡。
H800节点的输入输出性能良好，每秒输入73.7k token，输出14.8k token。
成本利润率达到545%。
系统设计目标是更高的吞吐量和更低的时延。
跨节点的Expert Parallelism（EP）策略显著提升了GPU矩阵计算效率。
EP引入跨节点通信，需在计算流程中设计计算与通信重叠。
大规模跨节点EP需要极大规模的整体批量以保证单个专家的批量规模充足。
预填充和解码阶段使用不同的并行度以优化性能。
双批次重叠策略通过交替执行微批来隐藏通信开销。
实现最佳负载均衡以最大化资源使用率，避免性能瓶颈。
DeepSeek在线推理服务基于H800 GPU，使用与训练一致的精度。
在高峰期部署推理服务，夜间减少节点数量以节省资源。
过去24小时内，V3和R1推理服务最高占用278个节点，平均占用226.75个节点。
每日理论收入为562,027美元，实际收入低于此估算，原因包括定价低和部分服务免费。

❓

延伸问答

DeepSeek-V3/R1如何提高GPU计算效率？

DeepSeek-V3/R1通过跨节点专家并行优化吞吐量和延迟，提高GPU计算效率。

什么是双批次重叠策略，它的作用是什么？

双批次重叠策略通过交替执行微批来隐藏通信开销，从而降低通信对性能的影响。

H800节点的性能表现如何？

H800节点的输入输出性能良好，每秒输入73.7k token，输出14.8k token。

DeepSeek-V3/R1的成本利润率是多少？

DeepSeek-V3/R1的成本利润率达到545%。

系统设计的主要目标是什么？

系统设计的主要目标是实现更高的吞吐量和更低的时延。

如何实现最佳负载均衡？

通过预填充负载均衡器、解码负载均衡器和专家并行负载均衡器来实现最佳负载均衡。

🏷️

标签

DeepSeek-V3 GPU计算 deepseek 吞吐量开源成本利润率跨节点

➡️

继续阅读

迅策科技与图灵量子共同打造“量子+Token工厂”软硬一体系统解决方案
迅策科技与图灵量子在深圳签署战略合作协议，推出“量子+Token工厂”软硬一体系统解决方案，推动量子科技与Token工业化生产的融合，探索量子-经典混合计...
循环工程：从提示AI到设计自动系统的范式转变
循环工程通过设计自动化系统替代人工提示AI编程，提升编程效率。核心组件包括自动触发器、隔离工作间、技能说明书、插件连接线和分离的子智能体机制。程序员只需设...
微软并未排除将Xbox分拆的可能性
微软正在考虑对Xbox部门进行重大重组，可能将其分拆为独立公司。新任Xbox首席执行官Asha Sharma已获批投资于《光环》和《辐射》等重要游戏，但这...
locate cost
文章讨论了AI编程中的“定位成本”问题，指出AI在修改代码时面临的挑战。尽管AI能够轻松生成新代码，但在修改现有代码时却更为复杂。作者强调了选择合适位置进...
怎么用 AI 做内容运营？WordPress 官方现身说法，看他们如何狂揽百万流量！
WordPress通过AI和自动化技术提升内容运营效率，减少人工干预。利用自动抓取和AI改写，快速生成适合不同平台的文案，实现即时发布。同时，视频内容自动...
循环正在取代提示。验证将成为你最大的挑战。
本月，AI编码讨论的焦点转向如何设计提示循环以优化代理开发。代理开发经历了提示驱动、规范驱动和循环驱动三个阶段。在循环驱动阶段，开发者创建生成、评估和重试...