vLLM Blog ·

推动vLLM WideEP和大规模服务在Blackwell平台上的成熟（第一部分）

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

vLLM团队在NVIDIA GB200平台上优化性能，实现26.2K预填TPGS和10.1K解码TPGS，较H200提升3-5倍。通过低精度操作、内核融合和权重卸载等技术，显著提升计算效率和带宽利用率。

🎯

关键要点

vLLM团队在NVIDIA GB200平台上优化性能，实现26.2K预填TPGS和10.1K解码TPGS，较H200提升3-5倍。
通过低精度操作（NVFP4 GEMM、FP8 GEMM、NVFP4 MoE调度）、内核融合和权重卸载等技术，显著提升计算效率和带宽利用率。
GB200的内存带宽和计算能力的提升是性能提升的关键因素。
低精度操作通过量化模型权重和输出层，利用GB200的FP4和FP8操作实现更高的吞吐量。
内核融合策略减少了内存带宽消耗和内核启动开销，通过将多个操作合并为单个GPU内核来实现。
通过减少GPU数量来缩小预填工作负载，降低通信开销，从而提高吞吐量。
权重卸载v2通过异步预取减少GPU内存占用，同时保持性能。
优化的分块策略减少了大批处理中的开销，提高了GPU的利用率。
vLLM团队正在积极进行未来的改进，包括优化专家负载平衡和调度延迟。

🏷️

继续阅读

【vLLM 学习】视觉语言
本文介绍了如何使用vLLM进行离线推理，特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置，以确保在不同GPU上有效运行。
ABB机器人利用NVIDIA Omniverse大规模交付工业级物理AI
ABB与NVIDIA合作，将工业级物理AI引入工厂，通过整合NVIDIA Omniverse库到RobotStudio，实现高精度仿真，降低工程时间和部署...
大多数杰出AI项目壮观失败的技术飞跃
该文章介绍了一款AI性能优化工具包，提供混合精度、层融合和批量大小优化等多种方法，旨在提升模型推理和训练性能，降低内存使用和成本。
组织高效的平台团队
平台工程不仅涉及技术，还涉及组织管理。平台团队需在复杂的组织中简化流程，成为“复杂性汇聚点”。根据Conway定律，系统结构反映组织沟通，团队应优化沟通而...
首个物理AI数据基座平台“无垠”落户浙江，专治机器人数据荒，家庭工业商业场景全覆盖
浙江推出首个物理AI数据基座平台“无垠”，旨在解决机器人数据短缺问题。该平台结合真实数据与虚拟仿真，提供高质量数据，支持具身智能的训练与应用，推动行业发展。
博云科技发布AI原生智能体平台BoClaw
博云科技于3月9日推出AI原生智能体平台BoClaw，旨在提供数据保护和技能定制。该平台支持多种操作系统，用户可快速安装，内置36项技能，涵盖文档处理和创...

推动vLLM WideEP和大规模服务在Blackwell平台上的成熟（第一部分）

内容提要

关键要点

标签

继续阅读