vLLM现已支持gpt-oss

vLLM现已支持gpt-oss

💡 原文英文,约900词,阅读约需4分钟。
📝

内容提要

vLLM现已支持gpt-oss模型,兼容多款NVIDIA和AMD GPU。gpt-oss采用稀疏MoE架构,使用MXFP4格式减小模型大小,便于在单个GPU上运行。vLLM集成优化的GPU内核,提升性能和效率,并支持内置工具如网页浏览和Python解释器。未来将继续优化gpt-oss,提升性能和用户体验。

🎯

关键要点

  • vLLM现在支持gpt-oss模型,兼容NVIDIA和AMD多款GPU。
  • gpt-oss采用稀疏MoE架构,使用MXFP4格式减小模型大小,便于在单个GPU上运行。
  • MXFP4格式通过将每个权重表示为4位浮点数,显著降低了模型的大小。
  • vLLM集成了优化的GPU内核,以提升性能和效率,支持Blackwell和Hopper架构的GPU。
  • gpt-oss具有高效的注意力设计,结合了全注意力和滑动窗口注意力。
  • 内置工具支持包括网页浏览和Python代码解释器,模型可以自主决定何时调用这些工具。
  • vLLM的未来计划包括进一步优化gpt-oss的性能和用户体验。

延伸问答

vLLM支持哪些GPU?

vLLM支持NVIDIA Blackwell和Hopper GPU,以及AMD MI300x和MI355x GPU。

gpt-oss模型的架构特点是什么?

gpt-oss采用稀疏MoE架构,使用MXFP4格式减小模型大小,便于在单个GPU上运行。

MXFP4格式如何影响模型大小?

MXFP4格式通过将每个权重表示为4位浮点数,显著降低了模型的大小,使得120B模型为63GB,20B模型为14GB。

vLLM如何提升gpt-oss的性能?

vLLM集成了优化的GPU内核,支持Blackwell和Hopper架构的GPU,以提升性能和效率。

gpt-oss支持哪些内置工具?

gpt-oss支持网页浏览和Python代码解释器等内置工具,模型可以自主决定何时调用这些工具。

vLLM未来的优化计划是什么?

vLLM未来计划包括进一步优化gpt-oss的性能和用户体验,硬化Responses API等。

➡️

继续阅读