什么是 PD 分离
内容提要
LLM推理过程分为Prefill阶段和Decode阶段,Prefill阶段计算密集,Decode阶段生成token。评估指标为TTFT和TPOT,要求90%的请求的TTFT和TPOT值都小于等于0.4s和0.04s。PD分离优化了TTFT和TPOT指标,Prefill阶段限制Batch Size,Decode阶段增大Batch Size。
关键要点
-
LLM推理过程分为Prefill阶段和Decode阶段。
-
Prefill阶段计算密集,处理用户输入并计算KV Cache。
-
Decode阶段显存密集,顺序生成token,每次只计算一个token。
-
TTFT(生成第一个token的时间)和TPOT(每个响应token的时间)是评估指标。
-
P90 TTFT SLO要求90%的请求TTFT值<=0.4s。
-
P90 TPOT SLO要求90%的请求TPOT值<=0.04s。
-
PD分离优化了TTFT和TPOT指标,充分利用设备资源。
-
Prefill阶段使用高算力GPU,Decode阶段使用低算力大显存GPU。
-
Prefill阶段应限制Batch Size,Decode阶段应增大Batch Size。
-
Prefill阶段随着Batch Size增加,吞吐量增长趋于平缓。
-
Decode阶段随着Batch Size增加,吞吐量增长显著。
延伸问答
PD分离在LLM推理中有什么作用?
PD分离优化了TTFT和TPOT指标,充分利用设备资源,提升了推理效率。
LLM推理的Prefill和Decode阶段有什么区别?
Prefill阶段计算密集,处理用户输入并计算KV Cache;Decode阶段显存密集,顺序生成token。
什么是TTFT和TPOT,它们的评估标准是什么?
TTFT是生成第一个token的时间,P90 TTFT SLO要求90%的请求TTFT值<=0.4s;TPOT是每个响应token的时间,P90 TPOT SLO要求<=0.04s。
在Prefill阶段和Decode阶段,Batch Size的策略是什么?
Prefill阶段应限制Batch Size,Decode阶段应增大Batch Size,以优化性能。
PD分离如何提升LLM的推理性能?
通过分开优化Prefill和Decode阶段,分别使用高算力和低算力大显存的GPU,提升TTFT和TPOT。
为什么Prefill阶段的吞吐量增长趋于平缓?
因为Prefill阶段是计算密集型,随着Batch Size增加,算力受限,导致吞吐量增长趋于平缓。