💡 原文英文,约1400词,阅读约需5分钟。
📝

内容提要

v0.11.0版本标志着vLLM完全迁移至V1引擎架构,得益于1969名贡献者的支持。该版本优化了高性能LLM推理,提升了每个H200 GPU的吞吐量至2.2k tokens/s。

🎯

关键要点

  • v0.11.0版本标志着vLLM完全迁移至V1引擎架构,得益于1969名贡献者的支持。
  • 该版本优化了高性能LLM推理,提升了每个H200 GPU的吞吐量至2.2k tokens/s。
  • vLLM被纳入SemiAnalysis开源推理性能基准,并在Meta、LinkedIn、Red Hat、Mistral和HuggingFace等团队中得到信任。
  • DeepSeek风格的分散服务和稀疏专家混合模型部署仍然是高性能LLM推理的最先进技术。
  • vLLM团队进行了多项关键优化,包括异步调度、双批重叠、分散服务等。
  • 在Coreweave H200集群上,生产环境中的持续吞吐量达到了每个H200 GPU 2.2k tokens/s。
  • 这一性能提升得益于内核改进和双批重叠的实施。
  • Wide-EP部署模式通过稀疏专家激活和KV缓存管理来最大化有效KV缓存。
  • vLLM支持的专家并行负载平衡(EPLB)可以缓解推理时的负载不平衡问题。
  • 分散服务模式在专家并行部署中尤为有效,能够提高整体性能。
  • llm-d、Dynamo和Ray Serve LLM是支持大规模生成AI模型的分布式推理服务栈。
  • vLLM正在进行持续改进,包括弹性专家并行、长上下文服务和KV缓存转移等。
  • 最新的路线图可在roadmap.vllm.ai查看。
➡️

继续阅读