海光 K100 DCU VLLM 推理环境构建
内容提要
本文介绍了在Kylin OS上部署VLLM模型的环境配置与操作步骤,包括驱动安装、模型下载、镜像选择和服务部署,提供了具体的命令示例和参数设置。
关键要点
-
系统环境配置包括Kylin OS、Hygon C86芯片、128G显存和500G内存。
-
基础驱动安装需要使用最新的DTK,执行解压和载入环境的命令。
-
模型文件可以从HuggingFace和ModelScope等平台下载,建议使用小模型进行测试。
-
环境镜像需根据DCU驱动版本选择,国产加速卡需使用定制镜像。
-
部署服务时需设置显卡槽、匹配K100架构的版本和显卡使用率等参数。
-
提供了docker-compose.yml文件的示例,需根据实际情况修改相关内容。
-
测试服务是否正常运行的命令示例,包括curl请求和PyTorch环境检测。
延伸问答
如何在Kylin OS上配置VLLM模型的环境?
在Kylin OS上配置VLLM模型环境需要安装最新的DTK,解压并载入环境,确保系统满足Hygon C86芯片、128G显存和500G内存的要求。
可以从哪里下载VLLM模型文件?
VLLM模型文件可以从HuggingFace和ModelScope等平台下载,建议使用小模型进行测试。
部署VLLM服务时需要设置哪些参数?
部署VLLM服务时需要设置显卡槽、匹配K100架构的版本、显卡使用率等参数,如HIP_VISIBLE_DEVICES和HSA_OVERRIDE_GFX_VERSION。
如何测试VLLM服务是否正常运行?
可以使用curl命令发送POST请求到服务地址,检查返回结果以确认服务是否正常运行。
国产加速卡在环境镜像选择上有什么特别要求?
国产加速卡需要使用定制的镜像,因为缺少CDNA/GCN架构的优化内核,未针对Hygon芯片做算子优化。
如何修改docker-compose.yml文件以适应实际情况?
需要根据实际情况修改docker-compose.yml文件中的environment部分显卡数和显卡槽,以及command中的模型路径和volumes中的映射路径。