小红花·文摘

本文探讨了大模型应用中PD分离部署的必要性，分析了Prefill与Decode阶段的资源需求差异，建议将两者部署在不同设备上以优化性能。同时介绍了vLLM的连接器和部署过程，强调了缓存共享与负载均衡的重要性。

vLLM 部署 PD 分离应用

陈少文的博客 ·

vLLM 是一款加速大语言模型推理的框架，解决了内存管理瓶颈，实现了 KV 缓存内存的高效利用。文章介绍了如何使用 vLLM 进行预填充和解码，并利用两个 GPU 实例进行 KV 缓存传输，以提升模型性能。

【vLLM 学习】Disaggregated Prefill

HyperAI超神经 ·

vLLM 是一款加速大语言模型推理的框架，解决了内存管理瓶颈，并支持 KV 缓存。文章介绍了如何使用 vLLM 和 LMCache 进行预填充和解码，包括环境变量设置和示例代码。

【vLLM 学习】Disaggregated Prefill Lmcache

HyperAI超神经 ·

LLM推理过程分为Prefill阶段和Decode阶段，Prefill阶段计算密集，Decode阶段生成token。评估指标为TTFT和TPOT，要求90%的请求的TTFT和TPOT值都小于等于0.4s和0.04s。PD分离优化了TTFT和TPOT指标，Prefill阶段限制Batch Size，Decode阶段增大Batch Size。

什么是 PD 分离

陈少文的博客 ·