PD 分离中的 kvcache 传输优化

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

随着PD分离系统的推广,kvcache传输影响了用户体验。通过采用nccl和改进发送行为,传输性能显著提升,提升幅度达到42.90%。

🎯

关键要点

  • PD分离系统推广后,kvcache传输影响用户体验。
  • P节点的attention tp大于D节点,导致kvcache传输性能问题。
  • 优化RDMA传输性能的首选是nccl。
  • 通过优化发送行为,传输性能提升3.62倍。
  • 在小包场景中,减少cqe生成,改变发送行为以提高效率。
  • 进一步剥离传输链路开销,传输性能提升7.19倍。
  • 增加发送使用的qp数量,最终提升传输性能42.90%。

延伸问答

PD分离系统中kvcache传输的主要问题是什么?

主要问题是P节点的attention tp大于D节点,导致kvcache传输性能下降。

如何优化PD分离中的kvcache传输性能?

通过采用nccl和优化发送行为,可以显著提升传输性能。

使用nccl进行RDMA传输的优势是什么?

nccl是优化RDMA传输性能的首选,能够提高传输效率和正确性。

在小包场景中,如何提高kvcache传输效率?

通过减少cqe生成和改变发送行为,可以提高小包场景下的传输效率。

传输链路剥离开销后,性能提升了多少?

剥离传输链路开销后,传输性能提升了7.19倍。

增加发送使用的qp数量对传输性能的影响是什么?

增加qp数量后,传输性能提升了42.90%。

➡️

继续阅读