vLLM Blog ·

推动vLLM WideEP和大规模服务在Blackwell平台上的成熟（第一部分）

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

vLLM团队在NVIDIA GB200平台上优化性能，实现26.2K预填TPGS和10.1K解码TPGS，较H200提升3-5倍。通过低精度操作、内核融合和权重卸载等技术，显著提升计算效率和带宽利用率。

🎯

🔎

vLLM团队通过低精度操作、内核融合和权重卸载等技术，显著提升了计算效率。这些技术不仅提高了吞吐量，还有效降低了内存带宽的消耗，适应了GB200平台的高性能需求。特别是低精度操作的应用，使得模型在保持质量的同时，能够实现更高的处理速度。

在进行大规模推理服务时，vLLM团队通过减少GPU数量来优化资源利用，降低了通信开销。这种策略在预填工作负载中尤为有效，能够在不牺牲性能的情况下，提高整体吞吐量。用户在部署时应关注GPU数量与任务需求的平衡，以实现最佳性能。

vLLM团队正在积极探索进一步优化的方向，包括提升专家负载平衡和调度延迟。这些改进将有助于在更复杂的工作负载下，进一步提高系统的响应速度和处理能力。关注这些进展将有助于用户在未来的应用中获得更高的性能和效率。

❓

vLLM在GB200平台上实现了26.2K预填TPGS和10.1K解码TPGS，相比H200提升了3-5倍。

vLLM通过低精度操作、内核融合和权重卸载等技术显著提升计算效率和带宽利用率。

GB200的内存带宽和计算能力的提升是性能提升的关键因素，特别是FP4和FP8操作的高吞吐量。

权重卸载v2通过异步预取减少GPU内存占用，同时保持性能，提前将权重加载到GPU中。

内核融合策略通过将多个操作合并为单个GPU内核，减少了内存带宽消耗和内核启动开销。

vLLM团队未来将优化专家负载平衡、调度延迟，并扩展WideEP和大规模服务在GB300上的应用。

🏷️