什么是 PD 分离

💡 原文中文,约900字,阅读约需3分钟。
📝

内容提要

LLM推理过程分为Prefill阶段和Decode阶段,Prefill阶段计算密集,Decode阶段生成token。评估指标为TTFT和TPOT,要求90%的请求的TTFT和TPOT值都小于等于0.4s和0.04s。PD分离优化了TTFT和TPOT指标,Prefill阶段限制Batch Size,Decode阶段增大Batch Size。

🎯

关键要点

  • LLM推理过程分为Prefill阶段和Decode阶段。

  • Prefill阶段计算密集,处理用户输入并计算KV Cache。

  • Decode阶段显存密集,顺序生成token,每次只计算一个token。

  • TTFT(生成第一个token的时间)和TPOT(每个响应token的时间)是评估指标。

  • P90 TTFT SLO要求90%的请求TTFT值<=0.4s。

  • P90 TPOT SLO要求90%的请求TPOT值<=0.04s。

  • PD分离优化了TTFT和TPOT指标,充分利用设备资源。

  • Prefill阶段使用高算力GPU,Decode阶段使用低算力大显存GPU。

  • Prefill阶段应限制Batch Size,Decode阶段应增大Batch Size。

  • Prefill阶段随着Batch Size增加,吞吐量增长趋于平缓。

  • Decode阶段随着Batch Size增加,吞吐量增长显著。

延伸问答

PD分离在LLM推理中有什么作用?

PD分离优化了TTFT和TPOT指标,充分利用设备资源,提升了推理效率。

LLM推理的Prefill和Decode阶段有什么区别?

Prefill阶段计算密集,处理用户输入并计算KV Cache;Decode阶段显存密集,顺序生成token。

什么是TTFT和TPOT,它们的评估标准是什么?

TTFT是生成第一个token的时间,P90 TTFT SLO要求90%的请求TTFT值<=0.4s;TPOT是每个响应token的时间,P90 TPOT SLO要求<=0.04s。

在Prefill阶段和Decode阶段,Batch Size的策略是什么?

Prefill阶段应限制Batch Size,Decode阶段应增大Batch Size,以优化性能。

PD分离如何提升LLM的推理性能?

通过分开优化Prefill和Decode阶段,分别使用高算力和低算力大显存的GPU,提升TTFT和TPOT。

为什么Prefill阶段的吞吐量增长趋于平缓?

因为Prefill阶段是计算密集型,随着Batch Size增加,算力受限,导致吞吐量增长趋于平缓。

🏷️

标签

➡️

继续阅读