使用 vLLM 应用验证推理节点
💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
本文介绍了制作和推送Qwen1.5-1.8B-Chat模型Docker镜像的步骤,包括下载模型、编写Dockerfile、构建多架构镜像、设置推理服务和测试接口。
🎯
关键要点
- 制作镜像的步骤包括下载模型、编写Dockerfile和编译镜像。
- 下载模型使用git clone命令从Hugging Face获取。
- 编写Dockerfile以设置模型文件的路径。
- 构建多架构镜像以支持X86和ARM架构。
- 推送镜像到Docker Hub和阿里云容器镜像服务。
- 设置推理服务的环境变量以指定镜像。
- 运行服务时需要指定设备和模型路径。
- 测试推理接口以验证服务是否正常工作。
- 在集群上推理服务时需要设置运行节点和部署负载。
- 清理容器和负载以释放资源。
❓
延伸问答
如何下载Qwen1.5-1.8B-Chat模型?
使用git clone命令从Hugging Face下载模型:git clone https://huggingface.co/Qwen/Qwen1.5-1.8B-Chat。
编写Dockerfile时需要注意什么?
需要设置模型文件的路径,并确保Dockerfile中包含COPY指令将模型文件复制到指定目录。
如何构建多架构镜像?
使用命令nerdctl build --platform=amd64,arm64 -t registry-1.docker.io/shaowenchen/demo-vllm-qwen:1.5-1.8b-chat .来构建多架构镜像。
如何推送镜像到Docker Hub?
使用命令nerdctl push --all-platforms registry-1.docker.io/shaowenchen/demo-vllm-qwen:1.5-1.8b-chat将镜像推送到Docker Hub。
如何设置推理服务的环境变量?
根据所在地区,使用export IMAGE命令设置环境变量,国内使用阿里云的镜像地址,国外使用Docker Hub的地址。
如何测试推理接口是否正常工作?
使用curl命令向推理服务发送请求,检查返回结果以验证服务是否正常工作。
➡️