vLLM Blog ·

vLLM现已支持gpt-oss

💡 原文英文，约900词，阅读约需4分钟。

📝

内容提要

vLLM现已支持gpt-oss模型，兼容多款NVIDIA和AMD GPU。gpt-oss采用稀疏MoE架构，使用MXFP4格式减小模型大小，便于在单个GPU上运行。vLLM集成优化的GPU内核，提升性能和效率，并支持内置工具如网页浏览和Python解释器。未来将继续优化gpt-oss，提升性能和用户体验。

🎯

关键要点

vLLM现在支持gpt-oss模型，兼容NVIDIA和AMD多款GPU。
gpt-oss采用稀疏MoE架构，使用MXFP4格式减小模型大小，便于在单个GPU上运行。
MXFP4格式通过将每个权重表示为4位浮点数，显著降低了模型的大小。
vLLM集成了优化的GPU内核，以提升性能和效率，支持Blackwell和Hopper架构的GPU。
gpt-oss具有高效的注意力设计，结合了全注意力和滑动窗口注意力。
内置工具支持包括网页浏览和Python代码解释器，模型可以自主决定何时调用这些工具。
vLLM的未来计划包括进一步优化gpt-oss的性能和用户体验。

❓

延伸问答

vLLM支持哪些GPU？

vLLM支持NVIDIA Blackwell和Hopper GPU，以及AMD MI300x和MI355x GPU。

gpt-oss模型的架构特点是什么？

gpt-oss采用稀疏MoE架构，使用MXFP4格式减小模型大小，便于在单个GPU上运行。

MXFP4格式如何影响模型大小？

MXFP4格式通过将每个权重表示为4位浮点数，显著降低了模型的大小，使得120B模型为63GB，20B模型为14GB。

vLLM如何提升gpt-oss的性能？

vLLM集成了优化的GPU内核，支持Blackwell和Hopper架构的GPU，以提升性能和效率。

gpt-oss支持哪些内置工具？

gpt-oss支持网页浏览和Python代码解释器等内置工具，模型可以自主决定何时调用这些工具。

vLLM未来的优化计划是什么？

vLLM未来计划包括进一步优化gpt-oss的性能和用户体验，硬化Responses API等。

🏷️

继续阅读

AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
七年Django换Rust：一台服务器干十台的活
Wasmer团队将七年的Django后端重写为Rust，成功将服务器成本降低90%。重写后，CPU从220核降至24核，内存从800GB降至64GB，查询...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
KVarN：华为用于KVCache量化的原生vLLM后端
华为开源的KVarN是一种KV Cache量化技术，通过Hadamard旋转和双轴方差归一化，有效解决大模型推理中的显存瓶颈。该技术在2-bit量化下保持...
存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...
eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...