安志合的学习博客 ·

vLLM集成Ray分布式推理模型部署实战

💡 原文中文，约9800字，阅读约需24分钟。

📝

内容提要

本文讨论了从单机到多节点分布式推理部署的架构变化，强调了流水线并行（PP）与张量并行（TP）的结合使用。通过与Ray框架集成，vLLM实现了高效的分布式推理，管理集群资源并协调任务。文章还介绍了Ray集群的搭建、vLLM的配置及生产环境的优化建议，包括网络通信、性能调优和监控等关键步骤。

🎯

🔎

在从单机到多节点的分布式推理部署中，架构的核心变化在于网络通信的转变。单机多卡的内部通信效率高，但在多节点环境下，跨节点的网络带宽成为瓶颈。因此，结合流水线并行（PP）与张量并行（TP）的策略，可以有效减少跨节点的数据传输，提高整体性能。

搭建Ray集群是实现多节点部署的前提。用户需确保在所有节点上正确安装Ray，并启动Head节点以管理集群资源。配置vLLM时，必须指定Ray作为分布式执行后端，以确保跨节点的任务协调和资源调度。

在生产环境中，网络通信往往是性能瓶颈。建议通过设置环境变量来优化底层通信库的行为，以提高数据传输效率。此外，使用量化技术（如FP8）可以显著降低模型显存占用，提升并发处理能力。

❓

首先在所有节点上安装Ray，然后在主节点上启动Ray集群，使用命令`ray start --head --port=6379`，接着在Worker节点上连接到主节点，执行`ray start --address=<HEAD_NODE_IP>:6379`。

vLLM与Ray框架集成后，Ray负责管理集群资源和协调任务，而vLLM作为推理引擎，可以高效利用分配的GPU资源进行模型推理。

可以通过设置环境变量来优化底层通信库的行为，确保使用专用的网络接口，并调整NCCL的配置以提高节点间的数据传输速度。

流水线并行（PP）将模型的不同层切分到不同节点上，而张量并行（TP）在每个节点内部将层拆分到多张GPU上，两者结合可以有效减少跨节点的数据传输量。

需要确保所有节点上的Python环境、vLLM版本、Ray版本以及模型路径完全一致，以避免不必要的错误和性能问题。

关键参数包括`--distributed-executor-backend ray`（指定Ray作为后端）、`--tensor-parallel-size`（设置张量并行规模）、`--pipeline-parallel-size`（设置流水线并行规模）等。

🏷️