安志合的学习博客 ·

vLLM 部署Qwen2.5 LLM & VLM 大模型

💡 原文中文，约5900字，阅读约需14分钟。

📝

内容提要

Qwen2.5-32B和Qwen2.5-VL-32B是通义千问系列的两个大模型，分别为纯文本和多模态模型。部署前需确认硬件要求，建议使用Docker环境并安装NVIDIA工具包。模型支持中英文，具备强大推理能力，适用于图文问答和多模态推理。

🎯

关键要点

Qwen2.5-32B和Qwen2.5-VL-32B是通义千问系列中的两个大模型，分别为纯文本和多模态模型。
部署前需确认硬件要求，建议使用Docker环境并安装NVIDIA工具包。
Qwen2.5-32B支持中英文，具备强大推理能力，适用于文本生成和对话。
Qwen2.5-VL-32B支持图像理解和图文问答，需同时加载视觉和语言组件。
Qwen2.5-32B建议显存≥24GB，Qwen2.5-VL-32B建议显存≥32GB。
部署前需确保系统内存和磁盘空间满足要求，Qwen2.5-32B约需60GB，Qwen2.5-VL-32B约需70GB。
使用vLLM框架在Docker中部署模型的步骤包括准备环境、下载模型和启动Docker容器。
启动Docker容器时需设置模型路径、服务名称和GPU内存利用率等参数。
服务启动后可通过curl命令检查服务状态和发送推理请求进行测试。
自定义FastAPI和Transformers可用于多模态模型的部署和测试。

🏷️

继续阅读

免费无限量的 GLM-5、Qwen3.5-398B 模型，AtomGit 限时免费
AtomGit推出限时活动，用户可免费使用GLM-5和Qwen3.5-398B模型。但OpenClaw的上下文限制为16K，可能存在设置错误。注册后可调用...
刚刚，奥特曼砸场发布 GPT-5.4！网友：一句 Hi 烧掉 80 美元
OpenAI发布的GPT-5.4整合了编程、推理和计算机操控等功能，显著提升了知识工作和网页搜索能力。其准确性和编程能力大幅提高，支持百万Token上下文...
认知的远点
这篇科幻小说探讨了大型语言模型（LLM）作为工具的本质，强调人类探求“为什么知道”的重要性。在短视频时代，人类难以创造新语言，文字并非唯一的表达方式。通过...
GPT-5.4发布：OpenAI首个大一统模型，简直是龙虾原生
OpenAI发布的GPT-5.4是首个大一统模型，集成推理、编程和计算机操作能力，性能提升且成本降低。其计算和编程功能显著增强，适用于复杂任务，并在多个基...
5个强大的Python装饰器来优化LLM应用
diskcache库利用SQLite实现持久化缓存，适合存储耗时函数的结果，如LLM API调用，能在后续调用中快速检索，适用于内存不足的情况。
LogSentinel：Databricks如何利用Databricks进行基于LLM的个人身份信息检测与治理
该文章介绍了一种分层标签系统，能够预测细粒度标签、层次标签和居留标签。通过两阶段流程和多模型并行运行，选择最高置信度标签，持续监测数据模式并创建JIRA票...

vLLM 部署Qwen2.5 LLM & VLM 大模型

内容提要

关键要点

标签

继续阅读