学习让我快乐 ·

PD 分离中的 GDR

💡 原文中文，约8500字，阅读约需21分钟。

📝

内容提要

本文探讨了基于vllm实现的PD分离方案，重点分析了GDR（GPU-Direct RDMA）的细节及其对解码延迟的影响。实验结果表明，GDR对解码延迟几乎没有影响，且该方案对vllm的引入性低，几乎不需改动现有设施。

🎯

关键要点

本文基于vllm实现了PD分离方案，设计思路与Nvidia Dynamo相似。
D节点决策模块负责确定请求在P实例上完成，并通过GDR直接写入kvcache。
GDR对解码延迟几乎没有影响，且方案对vllm的引入性低，几乎不需改动现有设施。
实验结果表明，GDR RDMA Write流量与压测qps关系不大，decode latency的相对值变化很小。
使用阿里云ERDMA进行测试，结果显示GDR对解码延迟的影响微乎其微。

❓

延伸问答

PD分离方案是如何实现的？

PD分离方案基于vllm实现，设计思路与Nvidia Dynamo相似，通过D节点决策模块确定请求在P实例上完成，并使用GDR直接写入kvcache。

GDR对解码延迟的影响如何？

实验结果表明，GDR对解码延迟几乎没有影响，decode latency的相对值变化很小。

使用GDR的优势是什么？

使用GDR的优势在于其对vllm的引入性低，几乎不需改动现有设施，同时对解码延迟影响微乎其微。

实验中使用了什么测试工具？

实验中使用了阿里云ERDMA进行测试，以评估GDR对解码延迟的影响。

GDR RDMA Write流量与压测qps的关系如何？

GDR RDMA Write流量与压测qps关系不大，因为流量主要与Prefill的chunked prefill batched token数目有关。

D节点在处理请求时的决策过程是怎样的？

D节点通过决策模块确定请求在P实例上完成，并分配kvcache block，然后调用P实例进行prefill。

🏷️

继续阅读

20260605的胡言乱语
本文介绍了多种技术工具和方法，包括YAMLResume简历管理工具、终端中的cal命令、Shlink短链接服务、systemd timers替代cron、...
随想 - 20260605
本文介绍了多个技术主题，包括YAML简历管理工具、快速日历命令、MacBook加热技巧、自托管URL缩短器Shlink、将智能手机转为功能手机的体验、sy...
这是你的笔记本电脑……在人工智能时代
在开发者大会上，大型科技公司强调人工智能将改变工作方式。Nvidia的黄仁勋介绍了新型笔记本电脑的使用方式。尽管AI产品不断涌现，人们仍在思考这些变化的必...
当你的手机在机场被扣押时会发生什么
明尼苏达州的劳动组织者Janette Zahia Corcelius在返回美国时，她的手机被海关扣押并未归还。她提起诉讼，认为海关的行为违反了宪法第四修正...
Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
纽约州立法者通过了一项为期一年的新数据中心禁令
纽约州立法机构通过了一项为期一年的数据中心禁令，以评估其对环境和能源价格的影响。法案要求公司在获得项目批准前，至少提前三个月举行公众听证会。尽管大多数民众...