vLLM Blog ·

GB300上的DeepSeek-V3.2：性能突破

💡 原文英文，约2200词，阅读约需8分钟。

📝

内容提要

DeepSeek-V3.2在GB300上成功运行，使用FP4量化在预填充场景中实现7360 TGS的吞吐量。与DeepSeek-R1相比，V3.2在推理性能上仍有提升空间。B300系列在预填充和混合场景中表现出显著性能提升，尽管V3.2引入了新索引器，但预填充阶段的吞吐量仍低于R1，未来有优化潜力。

🎯

关键要点

DeepSeek-V3.2在GB300上成功运行，使用FP4量化在预填充场景中实现7360 TGS的吞吐量。
与DeepSeek-R1相比，V3.2在推理性能上仍有提升空间。
B300系列在预填充和混合场景中表现出显著性能提升。
V3.2引入的新索引器在预填充阶段的吞吐量仍低于R1，未来有优化潜力。
在预填充场景中，DeepSeek-R1的吞吐量为22476 TGS，而V3.2为7360 TGS。
B300系列在预填充场景中表现出8倍的性能提升。
NVFP4量化在DeepSeek V3.2中提供显著的性能提升，尤其是在使用较少硬件资源时。
TP2配置下，DeepSeek V3.2在预填充场景中实现7360 TGS的吞吐量。
EP2在预填充场景中表现优于TP2，适合高并发场景。
DeepSeek V3.2的索引器和稀疏注意力机制引入了额外的计算开销，影响了吞吐量。
DeepSeek V3.2在长上下文情况下的解码阶段表现出优势。
分离预填充设置在高并发情况下显示出吞吐量优势，且延迟更低。

🔎

延伸解读

DeepSeek-V3.2的性能潜力

尽管DeepSeek-V3.2在预填充场景中实现了7360 TGS的吞吐量，但与前代DeepSeek-R1相比，仍有显著的提升空间。特别是在推理性能方面，V3.2的设计引入了新的索引器和稀疏注意力机制，这虽然在长上下文情况下表现出优势，但也增加了计算开销，影响了整体吞吐量。

B300系列的优势

B300系列在预填充和混合场景中表现出8倍的性能提升，尤其是在高并发情况下，能够更好地利用硬件资源。与Hopper系列相比，B300的内存带宽和计算能力显著提高，使其在处理复杂任务时更具优势。

优化配置的重要性

在使用DeepSeek-V3.2时，选择合适的配置至关重要。TP2配置在预填充场景中表现良好，但在短输出混合场景中，EP2的吞吐量更高。根据具体工作负载的需求，合理选择并调整配置可以显著提升系统性能。

❓

延伸问答

DeepSeek-V3.2在GB300上的吞吐量是多少？

DeepSeek-V3.2在GB300上实现了7360 TGS的吞吐量。

与DeepSeek-R1相比，V3.2的推理性能如何？

与DeepSeek-R1相比，V3.2在推理性能上仍有显著提升空间。

B300系列在预填充场景中的性能提升有多大？

B300系列在预填充场景中表现出8倍的性能提升。

DeepSeek-V3.2引入的新索引器对性能有什么影响？

新索引器在预填充阶段的吞吐量仍低于R1，增加了额外的计算开销，影响了吞吐量。

在高并发场景中，EP2和TP2的选择有什么不同？

EP2在预填充阶段的吞吐量更高，而TP2在解码阶段的延迟更低，适合不同的工作负载。

DeepSeek-V3.2的未来优化潜力在哪里？

DeepSeek-V3.2在索引器和稀疏注意力机制方面有优化潜力，尤其是在预填充阶段。

🏷️