普惠 DeepSeek-V4:Kthena + 昇腾 3 分钟搭建 PD 分离推理

普惠 DeepSeek-V4:Kthena + 昇腾 3 分钟搭建 PD 分离推理

💡 原文中文,约9400字,阅读约需23分钟。
📝

内容提要

本文介绍了在昇腾NPU上通过Kthena实现DeepSeek-V4模型的P/D分离推理架构。P/D分离将推理过程分为Prefill和Decode两个阶段,以优化计算资源和吞吐率。使用Mooncake Connector实现KV Cache的高效传输,Kthena的ModelRoute负责请求路由和实例发现,验证了P/D分离的可行性,并支持灵活的P/D比例调整和多实例扩展。

🎯

关键要点

  • P/D分离是一种性能优化架构,将推理过程分为Prefill和Decode两个阶段,以优化计算资源和吞吐率。

  • Prefill阶段负责生成首token,计算密集型,适合较大的张量并行,延迟敏感。

  • Decode阶段处理增量生成,每次只计算一个token,内存受限,吞吐率敏感。

  • P/D分离通过解耦优化了Prefill和Decode的并行策略,提升了整体性能。

  • 使用Mooncake Connector实现Prefill和Decode之间的KV Cache高效传输。

  • Kthena的ModelRoute负责请求路由和实例发现,解决了P/D分离架构中的路由挑战。

  • Kthena支持灵活的P/D比例调整和多实例扩展,简化了运维管理。

  • 通过Kthena在昇腾NPU上成功部署DeepSeek-V4-Flash模型,验证了P/D分离的可行性。

延伸问答

什么是P/D分离推理架构?

P/D分离推理架构将推理过程分为Prefill和Decode两个阶段,以优化计算资源和吞吐率。

Prefill和Decode阶段的主要区别是什么?

Prefill阶段负责生成首token,计算密集型;而Decode阶段处理增量生成,每次只计算一个token,内存受限。

Kthena在P/D分离架构中起什么作用?

Kthena负责请求路由和实例发现,解决P/D分离架构中的路由挑战,并支持灵活的P/D比例调整和多实例扩展。

如何实现Prefill和Decode之间的KV Cache传输?

使用Mooncake Connector实现Prefill和Decode之间的KV Cache高效传输,确保数据传输的低延迟。

P/D分离架构的优势是什么?

P/D分离架构通过解耦优化了Prefill和Decode的并行策略,提升了整体性能,支持灵活的资源配置。

如何在昇腾NPU上部署DeepSeek-V4模型?

通过Kthena控制器,使用声明式配置创建Prefill和Decode实例,并配置路由和KV传输。

➡️

继续阅读