vLLM大规模服务:DeepSeek @ 2.2k tok/s/H200与Wide-EP

vLLM大规模服务:DeepSeek @ 2.2k tok/s/H200与Wide-EP

💡 原文英文,约1400词,阅读约需5分钟。
📝

内容提要

v0.11.0版本标志着vLLM完全迁移至V1引擎架构,得益于1969名贡献者的支持。该版本优化了高性能LLM推理,提升了每个H200 GPU的吞吐量至2.2k tokens/s。

🎯

关键要点

  • v0.11.0版本标志着vLLM完全迁移至V1引擎架构,得益于1969名贡献者的支持。
  • 该版本优化了高性能LLM推理,提升了每个H200 GPU的吞吐量至2.2k tokens/s。
  • vLLM被纳入SemiAnalysis开源推理性能基准,并在Meta、LinkedIn、Red Hat、Mistral和HuggingFace等团队中得到信任。
  • DeepSeek风格的分散服务和稀疏专家混合模型部署仍然是高性能LLM推理的最先进技术。
  • vLLM团队进行了多项关键优化,包括异步调度、双批重叠、分散服务等。
  • 在Coreweave H200集群上,生产环境中的持续吞吐量达到了每个H200 GPU 2.2k tokens/s。
  • 这一性能提升得益于内核改进和双批重叠的实施。
  • Wide-EP部署模式通过稀疏专家激活和KV缓存管理来最大化有效KV缓存。
  • vLLM支持的专家并行负载平衡(EPLB)可以缓解推理时的负载不平衡问题。
  • 分散服务模式在专家并行部署中尤为有效,能够提高整体性能。
  • llm-d、Dynamo和Ray Serve LLM是支持大规模生成AI模型的分布式推理服务栈。
  • vLLM正在进行持续改进,包括弹性专家并行、长上下文服务和KV缓存转移等。
  • 最新的路线图可在roadmap.vllm.ai查看。

延伸问答

vLLM的v0.11.0版本有什么重要更新?

v0.11.0版本标志着vLLM完全迁移至V1引擎架构,并优化了高性能LLM推理,提升了每个H200 GPU的吞吐量至2.2k tokens/s。

vLLM如何提高GPU的吞吐量?

通过异步调度、双批重叠和分散服务等关键优化,vLLM提高了GPU的吞吐量。

Wide-EP部署模式的优势是什么?

Wide-EP通过稀疏专家激活和KV缓存管理,最大化有效KV缓存,提高了模型的整体性能。

vLLM支持哪些分布式推理服务?

vLLM支持llm-d、Dynamo和Ray Serve LLM等分布式推理服务栈。

vLLM的专家并行负载平衡(EPLB)有什么作用?

EPLB可以缓解推理时的负载不平衡问题,确保各个专家的负载均衡。

vLLM的未来发展方向是什么?

vLLM正在进行弹性专家并行、长上下文服务和KV缓存转移等持续改进。

➡️

继续阅读