陈少文的博客 ·

vLLM 部署 PD 分离应用

💡 原文中文，约5500字，阅读约需14分钟。

📝

内容提要

本文探讨了大模型应用中PD分离部署的必要性，分析了Prefill与Decode阶段的资源需求差异，建议将两者部署在不同设备上以优化性能。同时介绍了vLLM的连接器和部署过程，强调了缓存共享与负载均衡的重要性。

🎯

❓

PD分离部署是为了优化Prefill和Decode阶段的资源使用，因为这两个阶段对计算和显存的需求不同。

PD分离应用需要API Proxy、P节点和D节点三个服务。

vLLM支持SharedStorageConnector、LMCacheConnectorV1、NixlConnector、P2pNcclConnector和MultiConnector等连接器。

可以使用nerdctl命令启动vLLM容器，配置端口和GPU等参数。

P节点负责生成KV Cache，而D节点负责读取和存储KV Cache。

在实际生产中，需要考虑负载均衡、容错和缓存策略等问题，以确保系统的稳定性和性能。

🏷️

Android 语音房应用内最小化实现方案（含完整代码）
本文讨论了在Android应用中实现语音房的“应用内最小化”功能，允许用户将语音房最小化为悬浮窗，继续浏览其他内容而不影响通话。推荐使用方案A（Activ...
Agent、多模态、应用、算力一天看尽，峰会亮点在此｜5.20日，来现场一起AI
2026年中国AIGC产业峰会将于5月20日在北京举行，重点讨论AI技术的商业化与应用。18位嘉宾将分享AI Agent的落地、模型能力的进展以及AI在文...
XOLOme面向全球发布“全息AI伙伴”
XOLOme在香港国际文化创意博览会上发布了“全息AI伙伴”，结合人工智能和全息技术，提供深度陪伴。用户可以通过多种方式与AI伙伴“筱7”互动，该伙伴能够...
kubectl debug未告知你的：沉默的证据缺口
Kubernetes的调试会话在结束后不保留终止上下文，导致调试信息无法追踪。调试容器的状态和退出代码在Pod状态变化后会丢失，影响事件响应工作流。建议在...
Article: Building a Secure MCP Server on AWS for a Million-Company B2B Platform
We wanted to expose a B2B intelligence platform built on more than one millio...
Podcast: Context is the Key to the Agentic Architecture Revolution: A Conversation with Baruch Sadogursky
Michael Stiefel spoke to Baruch Sadogursky about software architecture in the...