钟意博客 ·

海光 K100 DCU VLLM 推理环境构建

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

本文介绍了在Kylin OS上部署VLLM模型的环境配置与操作步骤，包括驱动安装、模型下载、镜像选择和服务部署，提供了具体的命令示例和参数设置。

🎯

❓

在Kylin OS上配置VLLM模型环境需要安装最新的DTK，解压并载入环境，确保系统满足Hygon C86芯片、128G显存和500G内存的要求。

VLLM模型文件可以从HuggingFace和ModelScope等平台下载，建议使用小模型进行测试。

部署VLLM服务时需要设置显卡槽、匹配K100架构的版本、显卡使用率等参数，如HIP_VISIBLE_DEVICES和HSA_OVERRIDE_GFX_VERSION。

可以使用curl命令发送POST请求到服务地址，检查返回结果以确认服务是否正常运行。

国产加速卡需要使用定制的镜像，因为缺少CDNA/GCN架构的优化内核，未针对Hygon芯片做算子优化。

需要根据实际情况修改docker-compose.yml文件中的environment部分显卡数和显卡槽，以及command中的模型路径和volumes中的映射路径。

🏷️

在DwarfStar中分布式推理LLM
当前高端NVIDIA显卡及其服务器和电力成本高昂，尤其在运行大型模型时。苹果硬件和DGX Spark是可行的替代方案。Mac Studio M3 Ultr...
使用vLLM + Qwen3.5部署内网AI笔记
本文介绍了如何在内网使用vLLM和Qwen3.5部署AI模型。部署环境要求为NVIDIA A100/V100 GPU和Ubuntu 22.04 LTS系统...
未来推理将吃掉70%算力，30%留给训练丨硅谷投资人张璐@AIGC2026
张璐在2026中国AIGC产业峰会上指出，AI行业正从模型和算力转向基础设施和数据层，推理将成为算力消耗的新主角，数据质量比数量更重要。未来的重点在医疗、...
CoStrict Router —— 第三方 CoStrict 接口转发工具
CoStrict Router 是一个第三方接口转发工具，支持将 OpenAI 兼容请求转发至私有化的 CoStrict 服务，提供本地入口、登录态持久化...
Cox Media因虚假宣传被罚款，声称通过用户手机监听其对话
An exceptionally weird controversy has come back to haunt Cox Media and a pai...
再次尝试绕过孤儿规则：命名实现草案
Rust named impl 草案目的很明确，绕过 rust 的孤儿规则。应该比参考链接的方案更好看且更完善。概述 // struct trait...