vLLM团队在NVIDIA GB200平台上优化性能,实现26.2K预填TPGS和10.1K解码TPGS,较H200提升3-5倍。通过低精度操作、内核融合和权重卸载等技术,显著提升计算效率和带宽利用率。
完成下面两步后,将自动完成登录并继续当前操作。