💡
原文英文,约2200词,阅读约需8分钟。
📝
内容提要
DeepSeek-V3.2在GB300上成功运行,使用FP4量化在预填充场景中实现7360 TGS的吞吐量。与DeepSeek-R1相比,V3.2在推理性能上仍有提升空间。B300系列在预填充和混合场景中表现出显著性能提升,尽管V3.2引入了新索引器,但预填充阶段的吞吐量仍低于R1,未来有优化潜力。
🎯
关键要点
- DeepSeek-V3.2在GB300上成功运行,使用FP4量化在预填充场景中实现7360 TGS的吞吐量。
- 与DeepSeek-R1相比,V3.2在推理性能上仍有提升空间。
- B300系列在预填充和混合场景中表现出显著性能提升。
- V3.2引入的新索引器在预填充阶段的吞吐量仍低于R1,未来有优化潜力。
- 在预填充场景中,DeepSeek-R1的吞吐量为22476 TGS,而V3.2为7360 TGS。
- B300系列在预填充场景中表现出8倍的性能提升。
- NVFP4量化在DeepSeek V3.2中提供显著的性能提升,尤其是在使用较少硬件资源时。
- TP2配置下,DeepSeek V3.2在预填充场景中实现7360 TGS的吞吐量。
- EP2在预填充场景中表现优于TP2,适合高并发场景。
- DeepSeek V3.2的索引器和稀疏注意力机制引入了额外的计算开销,影响了吞吐量。
- DeepSeek V3.2在长上下文情况下的解码阶段表现出优势。
- 分离预填充设置在高并发情况下显示出吞吐量优势,且延迟更低。
➡️