使用 vLLM 应用验证推理节点

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

本文介绍了制作和推送Qwen1.5-1.8B-Chat模型Docker镜像的步骤,包括下载模型、编写Dockerfile、构建多架构镜像、设置推理服务和测试接口。

🎯

关键要点

  • 制作镜像的步骤包括下载模型、编写Dockerfile和编译镜像。
  • 下载模型使用git clone命令从Hugging Face获取。
  • 编写Dockerfile以设置模型文件的路径。
  • 构建多架构镜像以支持X86和ARM架构。
  • 推送镜像到Docker Hub和阿里云容器镜像服务。
  • 设置推理服务的环境变量以指定镜像。
  • 运行服务时需要指定设备和模型路径。
  • 测试推理接口以验证服务是否正常工作。
  • 在集群上推理服务时需要设置运行节点和部署负载。
  • 清理容器和负载以释放资源。

延伸问答

如何下载Qwen1.5-1.8B-Chat模型?

使用git clone命令从Hugging Face下载模型:git clone https://huggingface.co/Qwen/Qwen1.5-1.8B-Chat。

编写Dockerfile时需要注意什么?

需要设置模型文件的路径,并确保Dockerfile中包含COPY指令将模型文件复制到指定目录。

如何构建多架构镜像?

使用命令nerdctl build --platform=amd64,arm64 -t registry-1.docker.io/shaowenchen/demo-vllm-qwen:1.5-1.8b-chat .来构建多架构镜像。

如何推送镜像到Docker Hub?

使用命令nerdctl push --all-platforms registry-1.docker.io/shaowenchen/demo-vllm-qwen:1.5-1.8b-chat将镜像推送到Docker Hub。

如何设置推理服务的环境变量?

根据所在地区,使用export IMAGE命令设置环境变量,国内使用阿里云的镜像地址,国外使用Docker Hub的地址。

如何测试推理接口是否正常工作?

使用curl命令向推理服务发送请求,检查返回结果以验证服务是否正常工作。

➡️

继续阅读