vLLM Blog ·

vLLM大规模服务：DeepSeek @ 2.2k tok/s/H200与Wide-EP

💡 原文英文，约1400词，阅读约需5分钟。

📝

内容提要

v0.11.0版本标志着vLLM完全迁移至V1引擎架构，得益于1969名贡献者的支持。该版本优化了高性能LLM推理，提升了每个H200 GPU的吞吐量至2.2k tokens/s。

🎯

v0.11.0版本标志着vLLM完全迁移至V1引擎架构，得益于1969名贡献者的支持。
该版本优化了高性能LLM推理，提升了每个H200 GPU的吞吐量至2.2k tokens/s。
vLLM被纳入SemiAnalysis开源推理性能基准，并在Meta、LinkedIn、Red Hat、Mistral和HuggingFace等团队中得到信任。
DeepSeek风格的分散服务和稀疏专家混合模型部署仍然是高性能LLM推理的最先进技术。
vLLM团队进行了多项关键优化，包括异步调度、双批重叠、分散服务等。
在Coreweave H200集群上，生产环境中的持续吞吐量达到了每个H200 GPU 2.2k tokens/s。
这一性能提升得益于内核改进和双批重叠的实施。
Wide-EP部署模式通过稀疏专家激活和KV缓存管理来最大化有效KV缓存。
vLLM支持的专家并行负载平衡（EPLB）可以缓解推理时的负载不平衡问题。
分散服务模式在专家并行部署中尤为有效，能够提高整体性能。
llm-d、Dynamo和Ray Serve LLM是支持大规模生成AI模型的分布式推理服务栈。
vLLM正在进行持续改进，包括弹性专家并行、长上下文服务和KV缓存转移等。
最新的路线图可在roadmap.vllm.ai查看。

🔎

vLLM的v0.11.0版本标志着其完全迁移至V1引擎架构，提升了每个H200 GPU的吞吐量至2.2k tokens/s。这一进步得益于社区的贡献和多项关键优化，如异步调度和双批重叠，显示出在高性能LLM推理领域的持续创新。

Wide-EP模式通过稀疏专家激活和KV缓存管理，最大化了有效KV缓存的使用。这种模式在处理大规模生成AI模型时，能够显著提高性能，尤其是在多节点部署中，减少了资源浪费和延迟。

在推理过程中，专家并行负载平衡（EPLB）能够有效缓解负载不均的问题，确保各个专家的利用率更高。这对于大规模模型的高效运行至关重要，尤其是在面对复杂的推理任务时。

❓

v0.11.0版本标志着vLLM完全迁移至V1引擎架构，并优化了高性能LLM推理，提升了每个H200 GPU的吞吐量至2.2k tokens/s。

通过异步调度、双批重叠和分散服务等关键优化，vLLM提高了GPU的吞吐量。

Wide-EP通过稀疏专家激活和KV缓存管理，最大化有效KV缓存，提高了模型的整体性能。

vLLM支持llm-d、Dynamo和Ray Serve LLM等分布式推理服务栈。

EPLB可以缓解推理时的负载不平衡问题，确保各个专家的负载均衡。

vLLM正在进行弹性专家并行、长上下文服务和KV缓存转移等持续改进。

🏷️