海光 K100 DCU VLLM 推理环境构建

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

本文介绍了在Kylin OS上部署VLLM模型的环境配置与操作步骤,包括驱动安装、模型下载、镜像选择和服务部署,提供了具体的命令示例和参数设置。

🎯

关键要点

  • 系统环境配置包括Kylin OS、Hygon C86芯片、128G显存和500G内存。

  • 基础驱动安装需要使用最新的DTK,执行解压和载入环境的命令。

  • 模型文件可以从HuggingFace和ModelScope等平台下载,建议使用小模型进行测试。

  • 环境镜像需根据DCU驱动版本选择,国产加速卡需使用定制镜像。

  • 部署服务时需设置显卡槽、匹配K100架构的版本和显卡使用率等参数。

  • 提供了docker-compose.yml文件的示例,需根据实际情况修改相关内容。

  • 测试服务是否正常运行的命令示例,包括curl请求和PyTorch环境检测。

延伸问答

如何在Kylin OS上配置VLLM模型的环境?

在Kylin OS上配置VLLM模型环境需要安装最新的DTK,解压并载入环境,确保系统满足Hygon C86芯片、128G显存和500G内存的要求。

可以从哪里下载VLLM模型文件?

VLLM模型文件可以从HuggingFace和ModelScope等平台下载,建议使用小模型进行测试。

部署VLLM服务时需要设置哪些参数?

部署VLLM服务时需要设置显卡槽、匹配K100架构的版本、显卡使用率等参数,如HIP_VISIBLE_DEVICES和HSA_OVERRIDE_GFX_VERSION。

如何测试VLLM服务是否正常运行?

可以使用curl命令发送POST请求到服务地址,检查返回结果以确认服务是否正常运行。

国产加速卡在环境镜像选择上有什么特别要求?

国产加速卡需要使用定制的镜像,因为缺少CDNA/GCN架构的优化内核,未针对Hygon芯片做算子优化。

如何修改docker-compose.yml文件以适应实际情况?

需要根据实际情况修改docker-compose.yml文件中的environment部分显卡数和显卡槽,以及command中的模型路径和volumes中的映射路径。

➡️

继续阅读