SemiAnalysis InferenceMAX：vLLM与NVIDIA加速Blackwell推理

vLLM Blog ·

SemiAnalysis InferenceMAX：vLLM与NVIDIA加速Blackwell推理

💡 原文英文，约1600词，阅读约需6分钟。

📝

内容提要

与NVIDIA合作，优化Blackwell GPU架构以提升大语言模型的推理性能。通过重构和开发新内核，vLLM在Blackwell上实现了最高4倍的吞吐量提升，显著提高了推理效率。新基准测试显示，Blackwell在多种交互场景下表现优异，持续推动推理性能提升。

🎯

关键要点

与NVIDIA合作，优化Blackwell GPU架构以提升大语言模型的推理性能。
通过重构和开发新内核，vLLM在Blackwell上实现了最高4倍的吞吐量提升。
新基准测试显示，Blackwell在多种交互场景下表现优异，持续推动推理性能提升。
SemiAnalysis InferenceMax是一个自动化基准框架，用于评估LLM服务性能。
基准测试涵盖了多种输入/输出长度场景，以模拟真实使用情况。
Blackwell的计算架构结合了最新的HBM3e内存和高NVLink数据传输速度。
优化工作涉及软件栈的各个层面，包括内核执行速度和CPU开销的减少。
集成NVIDIA的FlashInfer库以提高内核性能，结合多种高性能内核。
vLLM自动检测模型的量化情况并选择合适的后端，简化用户操作。
持续的优化和与NVIDIA的合作将推动Blackwell平台的效率和规模。
感谢vLLM社区和NVIDIA团队的贡献，推动硬件和开源软件的共同设计。

❓

延伸问答

vLLM如何提升Blackwell GPU的推理性能？

vLLM通过重构现有内核和开发新内核，优化了Blackwell GPU架构，实现了最高4倍的吞吐量提升。

SemiAnalysis InferenceMAX是什么？

SemiAnalysis InferenceMAX是一个自动化基准框架，用于评估大语言模型服务性能，结果每日更新。

Blackwell GPU的计算架构有哪些新特性？

Blackwell GPU结合了最新的HBM3e内存和高NVLink数据传输速度，支持FP4精度格式。

vLLM如何简化用户操作？

vLLM自动检测模型的量化情况并选择合适的后端，简化了用户的操作流程。

与NVIDIA的合作对推理性能有何影响？

与NVIDIA的合作推动了Blackwell平台的效率和规模，优化了几乎每个推理管道的部分。

基准测试中使用了哪些模型？

基准测试使用了gpt-oss 120B和Llama 3.3 70B这两个开源模型。

🏷️

继续阅读

OpenAI的新GPT-5.5在NVIDIA基础设施上驱动Codex应用，NVIDIA已开始投入使用
OpenAI的最新模型GPT-5.5已在NVIDIA基础设施上运行，推动Codex应用程序的开发。超过10,000名NVIDIA员工在各个职能中使用Cod...
最强开源模型 DeepSeek V4 发布，1M上下文，运行成本大降
DeepSeek V4 发布，具备 1M 上下文和显著提升的代码能力，推理性能接近顶尖模型。新注意力机制降低计算需求，支持更多请求。V4 Pro 价格上涨...
从IDC到云上GPU：基于 Amazon EKS 的大模型推理混合云弹性部署实践
本文介绍了基于Amazon EKS和NVIDIA NIM的混合云大模型推理架构，强调本地GPU优先和云上弹性扩展的策略。通过KEDA和Karpenter实...
一分钟读论文：《PRIME：通过迭代记忆进化实现用户中心Agent的主动推理》
康奈尔大学的研究提出了PRIME框架，通过显式经验积累实现用户中心Agent的持续进化，避免了梯度学习的高成本和可解释性问题。该框架提炼成功策略、失败模式...
国内首家百亿估值纯推理GPU独角兽诞生！专访曦望联席CEO王湛：谁的推理成本更低谁就是赢家
曦望公司在一年内完成七轮融资，成为国内首家估值超百亿的纯推理GPU独角兽。王湛表示，推理算力需求激增，未来将超越训练算力。新一代推理GPU芯片启望S3旨在...
约束或自由：AI 工具化的两种答案
大模型在对话文本中表现优异，但缺乏实际操作能力。为实现AI的实际应用，需要赋予其行动能力，主要有两种技术路线：MCP和Skills。MCP注重标准化和安全...