GB300上的DeepSeek-V3.2:性能突破

GB300上的DeepSeek-V3.2:性能突破

💡 原文英文,约2200词,阅读约需8分钟。
📝

内容提要

DeepSeek-V3.2在GB300上成功运行,使用FP4量化在预填充场景中实现7360 TGS的吞吐量。与DeepSeek-R1相比,V3.2在推理性能上仍有提升空间。B300系列在预填充和混合场景中表现出显著性能提升,尽管V3.2引入了新索引器,但预填充阶段的吞吐量仍低于R1,未来有优化潜力。

🎯

关键要点

  • DeepSeek-V3.2在GB300上成功运行,使用FP4量化在预填充场景中实现7360 TGS的吞吐量。
  • 与DeepSeek-R1相比,V3.2在推理性能上仍有提升空间。
  • B300系列在预填充和混合场景中表现出显著性能提升。
  • V3.2引入的新索引器在预填充阶段的吞吐量仍低于R1,未来有优化潜力。
  • 在预填充场景中,DeepSeek-R1的吞吐量为22476 TGS,而V3.2为7360 TGS。
  • B300系列在预填充场景中表现出8倍的性能提升。
  • NVFP4量化在DeepSeek V3.2中提供显著的性能提升,尤其是在使用较少硬件资源时。
  • TP2配置下,DeepSeek V3.2在预填充场景中实现7360 TGS的吞吐量。
  • EP2在预填充场景中表现优于TP2,适合高并发场景。
  • DeepSeek V3.2的索引器和稀疏注意力机制引入了额外的计算开销,影响了吞吐量。
  • DeepSeek V3.2在长上下文情况下的解码阶段表现出优势。
  • 分离预填充设置在高并发情况下显示出吞吐量优势,且延迟更低。

延伸问答

DeepSeek-V3.2在GB300上的吞吐量是多少?

DeepSeek-V3.2在GB300上实现了7360 TGS的吞吐量。

与DeepSeek-R1相比,V3.2的推理性能如何?

与DeepSeek-R1相比,V3.2在推理性能上仍有显著提升空间。

B300系列在预填充场景中的性能提升有多大?

B300系列在预填充场景中表现出8倍的性能提升。

DeepSeek-V3.2引入的新索引器对性能有什么影响?

新索引器在预填充阶段的吞吐量仍低于R1,增加了额外的计算开销,影响了吞吐量。

在高并发场景中,EP2和TP2的选择有什么不同?

EP2在预填充阶段的吞吐量更高,而TP2在解码阶段的延迟更低,适合不同的工作负载。

DeepSeek-V3.2的未来优化潜力在哪里?

DeepSeek-V3.2在索引器和稀疏注意力机制方面有优化潜力,尤其是在预填充阶段。

➡️

继续阅读