vLLM 部署Qwen2.5 LLM & VLM 大模型

💡 原文中文,约5900字,阅读约需14分钟。
📝

内容提要

Qwen2.5-32B和Qwen2.5-VL-32B是通义千问系列的两个大模型,分别为纯文本和多模态模型。部署前需确认硬件要求,建议使用Docker环境并安装NVIDIA工具包。模型支持中英文,具备强大推理能力,适用于图文问答和多模态推理。

🎯

关键要点

  • Qwen2.5-32B和Qwen2.5-VL-32B是通义千问系列中的两个大模型,分别为纯文本和多模态模型。
  • 部署前需确认硬件要求,建议使用Docker环境并安装NVIDIA工具包。
  • Qwen2.5-32B支持中英文,具备强大推理能力,适用于文本生成和对话。
  • Qwen2.5-VL-32B支持图像理解和图文问答,需同时加载视觉和语言组件。
  • Qwen2.5-32B建议显存≥24GB,Qwen2.5-VL-32B建议显存≥32GB。
  • 部署前需确保系统内存和磁盘空间满足要求,Qwen2.5-32B约需60GB,Qwen2.5-VL-32B约需70GB。
  • 使用vLLM框架在Docker中部署模型的步骤包括准备环境、下载模型和启动Docker容器。
  • 启动Docker容器时需设置模型路径、服务名称和GPU内存利用率等参数。
  • 服务启动后可通过curl命令检查服务状态和发送推理请求进行测试。
  • 自定义FastAPI和Transformers可用于多模态模型的部署和测试。