vLLM Blog ·

H200与Wide-EP

💡 原文英文，约1400词，阅读约需5分钟。

📝

内容提要

v0.11.0版本标志着vLLM完全迁移至V1引擎架构，得益于1969名贡献者的支持。该版本优化了高性能LLM推理，提升了每个H200 GPU的吞吐量至2.2k tokens/s。

🎯

v0.11.0版本标志着vLLM完全迁移至V1引擎架构，得益于1969名贡献者的支持。
该版本优化了高性能LLM推理，提升了每个H200 GPU的吞吐量至2.2k tokens/s。
vLLM被纳入SemiAnalysis开源推理性能基准，并在Meta、LinkedIn、Red Hat、Mistral和HuggingFace等团队中得到信任。
DeepSeek风格的分散服务和稀疏专家混合模型部署仍然是高性能LLM推理的最先进技术。
vLLM团队进行了多项关键优化，包括异步调度、双批重叠、分散服务等。
在Coreweave H200集群上，生产环境中的持续吞吐量达到了每个H200 GPU 2.2k tokens/s。
这一性能提升得益于内核改进和双批重叠的实施。
Wide-EP部署模式通过稀疏专家激活和KV缓存管理来最大化有效KV缓存。
vLLM支持的专家并行负载平衡（EPLB）可以缓解推理时的负载不平衡问题。
分散服务模式在专家并行部署中尤为有效，能够提高整体性能。
llm-d、Dynamo和Ray Serve LLM是支持大规模生成AI模型的分布式推理服务栈。
vLLM正在进行持续改进，包括弹性专家并行、长上下文服务和KV缓存转移等。
最新的路线图可在roadmap.vllm.ai查看。

🏷️

🌟 GSoC 2026 来了！与我们一起迎接又一个创新之年 🌟
谷歌夏季代码（GSoC）2026正式启动，ASF将连续第21年参与。GSoC旨在吸引新贡献者参与开源软件开发，项目持续12周以上。自2005年以来，ASF...
DeepSeek 与开源：肥沃土壤孕育 AI 硕果
中国开源生态经过二十年的发展，从零散探索到繁荣，推动了国产AI技术的崛起。DeepSeek等项目的成功得益于开源社区的积累与协作。尽管面临国际竞争，国内开...
百万围观、HuggingFace多模态登顶，华人团队开源语音版「DeepSeek」海外爆火
vLLM团队官宣创业：融资1.5亿美元，清华特奖游凯超成为联创
Mark Carney's Speech at the 2026 Davos Forum (Reading Material)
马克·卡尼在2026年达沃斯论坛上指出，国际秩序正经历重大变革，各国需诚实面对现实，重建基于价值的合作。中等强国如加拿大应增强战略自主，积极参与全球事务，...
在AMD GPU上构建混合模型与vLLM-SR
我们正在构建混合模型（MoM）系统，以提升大型语言模型（LLM）的集体智能。核心问题包括捕捉请求与响应信号、优化模型协作和确保系统安全。通过vLLM语义路...