量子位 ·

DeepSeek突袭公布成本利润率：545%

Q: DeepSeek-V3/R1的平均输出速率是多少？

平均输出速率为20~22tps。

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

DeepSeek-V3/R1推理系统通过跨节点专家并行和负载均衡策略优化了吞吐量和延迟。在高负荷情况下，系统使用278个节点，平均输出速率为20~22tps，成本利润率为545%。

🎯

关键要点

DeepSeek-V3/R1推理系统通过跨节点专家并行和负载均衡策略优化了吞吐量和延迟。
系统在高负荷情况下使用278个节点，平均输出速率为20~22tps。
DeepSeek的成本利润率为545%。
优化目标是实现更大的吞吐和更低的延迟。
采用大规模跨节点专家并行（Expert Parallelism/EP）来提高GPU矩阵乘法效率。
EP增加了系统复杂性，需设计合适的计算流程以同步传输和计算。
负载均衡是关键，确保每个GPU的计算和通信负载均衡。
DeepSeekV3和R1的服务使用H800 GPU，保证服务效果。
在高负荷时使用所有节点，低负荷时减少推理节点以进行研究和训练。
24小时内输入token总数为608B，输出token总数为168B，平均每台H800的吞吐量为73.7k tokens/s和14.8k tokens/s。

🔎

延伸解读

系统复杂性与优化策略

DeepSeek-V3/R1推理系统通过跨节点专家并行（EP）和负载均衡来优化性能，但这也增加了系统的复杂性。设计合适的计算流程以同步传输和计算是关键，尤其是在高负荷情况下，确保每个GPU的负载均衡可以避免性能瓶颈。

成本利润率的实际意义

DeepSeek的成本利润率高达545%，这表明其在资源利用和服务定价上具有显著优势。然而，实际收入可能受到定价策略和服务使用情况的影响，尤其是在夜间折扣和低负荷时段。因此，理解成本结构对评估其商业可持续性至关重要。

负载管理的重要性

在DeepSeek-V3/R1系统中，负载均衡是确保高效运行的核心。不同GPU的计算和通信负载必须均衡，以避免某些节点过载而影响整体性能。特别是在高峰时段，合理分配任务可以显著提升系统的吞吐量和响应速度。

❓

延伸问答

DeepSeek-V3/R1推理系统的主要优化目标是什么？

主要优化目标是实现更大的吞吐量和更低的延迟。

DeepSeek的成本利润率是多少？

DeepSeek的成本利润率为545%。

在高负荷情况下，DeepSeek-V3/R1使用了多少个节点？

在高负荷情况下，系统使用了278个节点。

DeepSeek-V3/R1是如何提高GPU矩阵乘法效率的？

通过大规模跨节点专家并行（Expert Parallelism/EP）来提高GPU矩阵乘法效率。

DeepSeek-V3/R1的平均输出速率是多少？