PD 分离中的 GDR
💡
原文中文,约8500字,阅读约需21分钟。
📝
内容提要
本文探讨了基于vllm实现的PD分离方案,重点分析了GDR(GPU-Direct RDMA)的细节及其对解码延迟的影响。实验结果表明,GDR对解码延迟几乎没有影响,且该方案对vllm的引入性低,几乎不需改动现有设施。
🎯
关键要点
-
本文基于vllm实现了PD分离方案,设计思路与Nvidia Dynamo相似。
-
D节点决策模块负责确定请求在P实例上完成,并通过GDR直接写入kvcache。
-
GDR对解码延迟几乎没有影响,且方案对vllm的引入性低,几乎不需改动现有设施。
-
实验结果表明,GDR RDMA Write流量与压测qps关系不大,decode latency的相对值变化很小。
-
使用阿里云ERDMA进行测试,结果显示GDR对解码延迟的影响微乎其微。
❓
延伸问答
PD分离方案是如何实现的?
PD分离方案基于vllm实现,设计思路与Nvidia Dynamo相似,通过D节点决策模块确定请求在P实例上完成,并使用GDR直接写入kvcache。
GDR对解码延迟的影响如何?
实验结果表明,GDR对解码延迟几乎没有影响,decode latency的相对值变化很小。
使用GDR的优势是什么?
使用GDR的优势在于其对vllm的引入性低,几乎不需改动现有设施,同时对解码延迟影响微乎其微。
实验中使用了什么测试工具?
实验中使用了阿里云ERDMA进行测试,以评估GDR对解码延迟的影响。
GDR RDMA Write流量与压测qps的关系如何?
GDR RDMA Write流量与压测qps关系不大,因为流量主要与Prefill的chunked prefill batched token数目有关。
D节点在处理请求时的决策过程是怎样的?
D节点通过决策模块确定请求在P实例上完成,并分配kvcache block,然后调用P实例进行prefill。
➡️