DeepSeek突袭公布成本利润率:545%
💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
DeepSeek-V3/R1推理系统通过跨节点专家并行和负载均衡策略优化了吞吐量和延迟。在高负荷情况下,系统使用278个节点,平均输出速率为20~22tps,成本利润率为545%。
🎯
关键要点
- DeepSeek-V3/R1推理系统通过跨节点专家并行和负载均衡策略优化了吞吐量和延迟。
- 系统在高负荷情况下使用278个节点,平均输出速率为20~22tps。
- DeepSeek的成本利润率为545%。
- 优化目标是实现更大的吞吐和更低的延迟。
- 采用大规模跨节点专家并行(Expert Parallelism/EP)来提高GPU矩阵乘法效率。
- EP增加了系统复杂性,需设计合适的计算流程以同步传输和计算。
- 负载均衡是关键,确保每个GPU的计算和通信负载均衡。
- DeepSeekV3和R1的服务使用H800 GPU,保证服务效果。
- 在高负荷时使用所有节点,低负荷时减少推理节点以进行研究和训练。
- 24小时内输入token总数为608B,输出token总数为168B,平均每台H800的吞吐量为73.7k tokens/s和14.8k tokens/s。
➡️