PD 分离中的 GDR

💡 原文中文,约8500字,阅读约需21分钟。
📝

内容提要

本文探讨了基于vllm实现的PD分离方案,重点分析了GDR(GPU-Direct RDMA)的细节及其对解码延迟的影响。实验结果表明,GDR对解码延迟几乎没有影响,且该方案对vllm的引入性低,几乎不需改动现有设施。

🎯

关键要点

  • 本文基于vllm实现了PD分离方案,设计思路与Nvidia Dynamo相似。

  • D节点决策模块负责确定请求在P实例上完成,并通过GDR直接写入kvcache。

  • GDR对解码延迟几乎没有影响,且方案对vllm的引入性低,几乎不需改动现有设施。

  • 实验结果表明,GDR RDMA Write流量与压测qps关系不大,decode latency的相对值变化很小。

  • 使用阿里云ERDMA进行测试,结果显示GDR对解码延迟的影响微乎其微。

延伸问答

PD分离方案是如何实现的?

PD分离方案基于vllm实现,设计思路与Nvidia Dynamo相似,通过D节点决策模块确定请求在P实例上完成,并使用GDR直接写入kvcache。

GDR对解码延迟的影响如何?

实验结果表明,GDR对解码延迟几乎没有影响,decode latency的相对值变化很小。

使用GDR的优势是什么?

使用GDR的优势在于其对vllm的引入性低,几乎不需改动现有设施,同时对解码延迟影响微乎其微。

实验中使用了什么测试工具?

实验中使用了阿里云ERDMA进行测试,以评估GDR对解码延迟的影响。

GDR RDMA Write流量与压测qps的关系如何?

GDR RDMA Write流量与压测qps关系不大,因为流量主要与Prefill的chunked prefill batched token数目有关。

D节点在处理请求时的决策过程是怎样的?

D节点通过决策模块确定请求在P实例上完成,并分配kvcache block,然后调用P实例进行prefill。

➡️

继续阅读