陈少文的博客 ·

什么是 PD 分离

💡 原文中文，约900字，阅读约需3分钟。

📝

内容提要

LLM推理过程分为Prefill阶段和Decode阶段，Prefill阶段计算密集，Decode阶段生成token。评估指标为TTFT和TPOT，要求90%的请求的TTFT和TPOT值都小于等于0.4s和0.04s。PD分离优化了TTFT和TPOT指标，Prefill阶段限制Batch Size，Decode阶段增大Batch Size。

🎯

关键要点

LLM推理过程分为Prefill阶段和Decode阶段。
Prefill阶段计算密集，处理用户输入并计算KV Cache。
Decode阶段显存密集，顺序生成token，每次只计算一个token。
TTFT（生成第一个token的时间）和TPOT（每个响应token的时间）是评估指标。
P90 TTFT SLO要求90%的请求TTFT值<=0.4s。
P90 TPOT SLO要求90%的请求TPOT值<=0.04s。
PD分离优化了TTFT和TPOT指标，充分利用设备资源。
Prefill阶段使用高算力GPU，Decode阶段使用低算力大显存GPU。
Prefill阶段应限制Batch Size，Decode阶段应增大Batch Size。
Prefill阶段随着Batch Size增加，吞吐量增长趋于平缓。
Decode阶段随着Batch Size增加，吞吐量增长显著。

❓

延伸问答

PD分离在LLM推理中有什么作用？

PD分离优化了TTFT和TPOT指标，充分利用设备资源，提升了推理效率。

LLM推理的Prefill和Decode阶段有什么区别？

Prefill阶段计算密集，处理用户输入并计算KV Cache；Decode阶段显存密集，顺序生成token。

什么是TTFT和TPOT，它们的评估标准是什么？

TTFT是生成第一个token的时间，P90 TTFT SLO要求90%的请求TTFT值<=0.4s；TPOT是每个响应token的时间，P90 TPOT SLO要求<=0.04s。

在Prefill阶段和Decode阶段，Batch Size的策略是什么？

Prefill阶段应限制Batch Size，Decode阶段应增大Batch Size，以优化性能。

PD分离如何提升LLM的推理性能？

通过分开优化Prefill和Decode阶段，分别使用高算力和低算力大显存的GPU，提升TTFT和TPOT。

为什么Prefill阶段的吞吐量增长趋于平缓？

因为Prefill阶段是计算密集型，随着Batch Size增加，算力受限，导致吞吐量增长趋于平缓。

🏷️

继续阅读

普惠 DeepSeek-V4：Kthena + 昇腾 3 分钟搭建 PD 分离推理
本文介绍了在昇腾NPU上通过Kthena实现DeepSeek-V4模型的P/D分离推理架构。P/D分离将推理过程分为Prefill和Decode两个阶段，...
在AI Gateway上按成本、延迟或吞吐量对提供者进行排序
AI Gateway 允许用户根据成本、首次令牌时间（TTFT）或吞吐量（TPS）对模型提供者进行排序，以优化请求，选择最低成本或最低延迟的提供者。排序在...
以下是我们从REI周年大促销中挑选的40个最爱优惠
REI’s annual Anniversary Sale — the retailer’s biggest of the year — has arri...
《Mixtape》是一幅关于青少年生活的音乐肖像
Playing Mixtape is like playing a video game version of a high school movie. ...
清理电脑所需的应用程序
本周的Installer介绍了实用的Mac应用程序，包括清理工具DropMole和菜单栏管理工具Bartender Pro。同时讨论了新书《Dungeon...
我推荐的适合几乎所有人的笔记本电脑
本文推荐了适合不同需求的笔记本电脑，包括苹果的MacBook Air和MacBook Pro、微软的Surface系列以及华硕的ROG和Zenbook系列...