vLLM Blog ·

在NVIDIA Blackwell上优化GPT-OSS性能：推动帕累托前沿

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

vLLM与NVIDIA合作，在Blackwell GPU上优化gpt-oss-120b模型，提升性能。通过FlashInfer集成、内核融合和运行时改进，实现最大吞吐量提高38%和最佳交互性提升13%。这些优化增强了模型在高并发场景下的表现。

🎯

❓

通过与FlashInfer集成、内核融合和运行时改进，vLLM与NVIDIA合作优化gpt-oss-120b模型，提升性能。

优化实现了最大吞吐量提高38%和最佳交互性提升13%。

使用了FlashInfer集成、torch.compile的内核融合、异步调度和流间隔机制等技术手段。

优化不仅提升了单一用例的性能，还对整个Pareto曲线产生了积极影响，惠及vLLM社区。

通过异步调度和流间隔机制消除了主机侧的开销，从而提升了GPU的利用率。

推荐配置包括设置图捕获大小、API服务器数量和启用优化的Cutlass后端等。

🏷️

【Rust日报】2026-06-05 NVIDIA OpenShell：AI Agent 的安全私有运行时
NVIDIA 开源了 OpenShell，一个为 AI Agent 设计的安全沙箱运行时，防止未授权访问和数据泄露。每个 Agent 在独立容器中运行，支...
Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...
七年Django换Rust：一台服务器干十台的活
Wasmer团队将七年的Django后端重写为Rust，成功将服务器成本降低90%。重写后，CPU从220核降至24核，内存从800GB降至64GB，查询...
Nemotron 3 Ultra现已在AI Gateway上可用
Nvidia推出的Nemotron 3 Ultra现已在Vercel AI Gateway上可用。这是一种开放的混合专家推理模型，专为长时间运行的代理工作...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
Valkey 为什么这么快？盘点 Valkey 中提升性能的黑科技
Valkey是Amazon ElastiCache的核心引擎，作为高性能开源内存数据库，单节点吞吐量可达119万RPS，集群可扩展至2000节点。Valk...