DeepSeek突袭公布成本利润率:545%

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

DeepSeek-V3/R1推理系统通过跨节点专家并行和负载均衡策略优化了吞吐量和延迟。在高负荷情况下,系统使用278个节点,平均输出速率为20~22tps,成本利润率为545%。

🎯

关键要点

  • DeepSeek-V3/R1推理系统通过跨节点专家并行和负载均衡策略优化了吞吐量和延迟。
  • 系统在高负荷情况下使用278个节点,平均输出速率为20~22tps。
  • DeepSeek的成本利润率为545%。
  • 优化目标是实现更大的吞吐和更低的延迟。
  • 采用大规模跨节点专家并行(Expert Parallelism/EP)来提高GPU矩阵乘法效率。
  • EP增加了系统复杂性,需设计合适的计算流程以同步传输和计算。
  • 负载均衡是关键,确保每个GPU的计算和通信负载均衡。
  • DeepSeekV3和R1的服务使用H800 GPU,保证服务效果。
  • 在高负荷时使用所有节点,低负荷时减少推理节点以进行研究和训练。
  • 24小时内输入token总数为608B,输出token总数为168B,平均每台H800的吞吐量为73.7k tokens/s和14.8k tokens/s。
➡️

继续阅读