什么是 PD 分离

💡 原文中文,约900字,阅读约需3分钟。
📝

内容提要

LLM推理过程分为Prefill阶段和Decode阶段,Prefill阶段计算密集,Decode阶段生成token。评估指标为TTFT和TPOT,要求90%的请求的TTFT和TPOT值都小于等于0.4s和0.04s。PD分离优化了TTFT和TPOT指标,Prefill阶段限制Batch Size,Decode阶段增大Batch Size。

🎯

关键要点

  • LLM推理过程分为Prefill阶段和Decode阶段。
  • Prefill阶段计算密集,处理用户输入并计算KV Cache。
  • Decode阶段显存密集,顺序生成token,每次只计算一个token。
  • TTFT(生成第一个token的时间)和TPOT(每个响应token的时间)是评估指标。
  • P90 TTFT SLO要求90%的请求TTFT值<=0.4s。
  • P90 TPOT SLO要求90%的请求TPOT值<=0.04s。
  • PD分离优化了TTFT和TPOT指标,充分利用设备资源。
  • Prefill阶段使用高算力GPU,Decode阶段使用低算力大显存GPU。
  • Prefill阶段应限制Batch Size,Decode阶段应增大Batch Size。
  • Prefill阶段随着Batch Size增加,吞吐量增长趋于平缓。
  • Decode阶段随着Batch Size增加,吞吐量增长显著。
🏷️

标签

➡️

继续阅读