安志合的学习博客 ·

vLLM 部署Qwen2.5 LLM & VLM 大模型

💡 原文中文，约5900字，阅读约需14分钟。

📝

内容提要

Qwen2.5-32B和Qwen2.5-VL-32B是通义千问系列的两个大模型，分别为纯文本和多模态模型。部署前需确认硬件要求，建议使用Docker环境并安装NVIDIA工具包。模型支持中英文，具备强大推理能力，适用于图文问答和多模态推理。

🎯

🔎

在部署Qwen2.5模型时，硬件要求是关键因素。Qwen2.5-32B和Qwen2.5-VL-32B对显存和系统内存的需求较高，尤其是多模态模型，建议使用显存≥32GB的GPU。确保硬件满足要求可以避免模型加载时的内存溢出（OOM）问题。

使用Docker部署Qwen2.5模型可以简化环境配置和依赖管理。Docker容器能够隔离不同的运行环境，确保模型在不同机器上的一致性。通过Docker，用户可以快速启动和停止服务，便于进行测试和迭代。

Qwen2.5-VL-32B作为多模态模型，除了语言处理外，还需处理图像输入。这意味着在部署时需要同时加载视觉和语言组件，增加了配置的复杂性。用户在使用时应注意构建正确的请求格式，以确保模型能够正确理解和处理输入。

❓

Qwen2.5-32B是纯文本语言模型，支持中英文，适用于文本生成和对话；而Qwen2.5-VL-32B是多模态模型，支持图像理解和图文问答。

Qwen2.5-32B建议显存≥24GB，系统内存建议32GB+，磁盘空间约需60GB；Qwen2.5-VL-32B建议显存≥32GB，系统内存建议64GB+，磁盘空间约需70GB。

首先安装Docker和NVIDIA驱动，下载模型后拉取vLLM镜像，最后使用docker run命令启动容器并运行模型。

Qwen2.5-VL-32B适用于图文问答和多模态推理，能够处理图像和文本的结合。

可以通过curl命令访问http://localhost:8000/health，若返回{

Qwen2.5-32B支持中英文。

🏷️