💡
原文英文,约900词,阅读约需4分钟。
📝
内容提要
vLLM现已支持gpt-oss模型,兼容多款NVIDIA和AMD GPU。gpt-oss采用稀疏MoE架构,使用MXFP4格式减小模型大小,便于在单个GPU上运行。vLLM集成优化的GPU内核,提升性能和效率,并支持内置工具如网页浏览和Python解释器。未来将继续优化gpt-oss,提升性能和用户体验。
🎯
关键要点
- vLLM现在支持gpt-oss模型,兼容NVIDIA和AMD多款GPU。
- gpt-oss采用稀疏MoE架构,使用MXFP4格式减小模型大小,便于在单个GPU上运行。
- MXFP4格式通过将每个权重表示为4位浮点数,显著降低了模型的大小。
- vLLM集成了优化的GPU内核,以提升性能和效率,支持Blackwell和Hopper架构的GPU。
- gpt-oss具有高效的注意力设计,结合了全注意力和滑动窗口注意力。
- 内置工具支持包括网页浏览和Python代码解释器,模型可以自主决定何时调用这些工具。
- vLLM的未来计划包括进一步优化gpt-oss的性能和用户体验。
❓
延伸问答
vLLM支持哪些GPU?
vLLM支持NVIDIA Blackwell和Hopper GPU,以及AMD MI300x和MI355x GPU。
gpt-oss模型的架构特点是什么?
gpt-oss采用稀疏MoE架构,使用MXFP4格式减小模型大小,便于在单个GPU上运行。
MXFP4格式如何影响模型大小?
MXFP4格式通过将每个权重表示为4位浮点数,显著降低了模型的大小,使得120B模型为63GB,20B模型为14GB。
vLLM如何提升gpt-oss的性能?
vLLM集成了优化的GPU内核,支持Blackwell和Hopper架构的GPU,以提升性能和效率。
gpt-oss支持哪些内置工具?
gpt-oss支持网页浏览和Python代码解释器等内置工具,模型可以自主决定何时调用这些工具。
vLLM未来的优化计划是什么?
vLLM未来计划包括进一步优化gpt-oss的性能和用户体验,硬化Responses API等。
➡️