华为云官方博客 ·

普惠 DeepSeek-V4：Kthena + 昇腾 3 分钟搭建 PD 分离推理

💡 原文中文，约9400字，阅读约需23分钟。

📝

内容提要

本文介绍了在昇腾NPU上通过Kthena实现DeepSeek-V4模型的P/D分离推理架构。P/D分离将推理过程分为Prefill和Decode两个阶段，以优化计算资源和吞吐率。使用Mooncake Connector实现KV Cache的高效传输，Kthena的ModelRoute负责请求路由和实例发现，验证了P/D分离的可行性，并支持灵活的P/D比例调整和多实例扩展。

🎯

关键要点

P/D分离是一种性能优化架构，将推理过程分为Prefill和Decode两个阶段，以优化计算资源和吞吐率。
Prefill阶段负责生成首token，计算密集型，适合较大的张量并行，延迟敏感。
Decode阶段处理增量生成，每次只计算一个token，内存受限，吞吐率敏感。
P/D分离通过解耦优化了Prefill和Decode的并行策略，提升了整体性能。
使用Mooncake Connector实现Prefill和Decode之间的KV Cache高效传输。
Kthena的ModelRoute负责请求路由和实例发现，解决了P/D分离架构中的路由挑战。
Kthena支持灵活的P/D比例调整和多实例扩展，简化了运维管理。
通过Kthena在昇腾NPU上成功部署DeepSeek-V4-Flash模型，验证了P/D分离的可行性。

🔎

延伸解读

P/D分离的技术优势

P/D分离架构通过将推理过程分为Prefill和Decode两个阶段，能够针对不同计算特性优化资源配置。Prefill阶段适合大规模并行计算，而Decode阶段则关注吞吐率的提升。这种解耦设计使得每个阶段都能独立优化，显著提升了整体性能，尤其在处理大语言模型时，能够有效降低延迟和提高吞吐率。

KV Cache传输的重要性

在P/D分离架构中，KV Cache的高效传输是实现Prefill与Decode协作的关键。使用Mooncake Connector可以确保低延迟的KV传输，避免了传统架构中因数据传输不畅导致的性能瓶颈。因此，合理配置KV传输机制对于提升整体推理效率至关重要，尤其是在高并发场景下。

灵活的P/D比例调整

Kthena支持灵活的P/D比例调整，用户可以根据实际需求轻松修改Prefill和Decode的副本数。这种灵活性使得系统能够快速适应不同的计算需求，例如在输入长度较大时增加Prefill副本，或在输出长度较大时增加Decode副本，从而优化资源利用率和提升服务质量。

❓

延伸问答

什么是P/D分离推理架构？

P/D分离推理架构将推理过程分为Prefill和Decode两个阶段，以优化计算资源和吞吐率。

Prefill和Decode阶段的主要区别是什么？

Prefill阶段负责生成首token，计算密集型；而Decode阶段处理增量生成，每次只计算一个token，内存受限。

Kthena在P/D分离架构中起什么作用？

Kthena负责请求路由和实例发现，解决P/D分离架构中的路由挑战，并支持灵活的P/D比例调整和多实例扩展。

如何实现Prefill和Decode之间的KV Cache传输？

使用Mooncake Connector实现Prefill和Decode之间的KV Cache高效传输，确保数据传输的低延迟。

P/D分离架构的优势是什么？

P/D分离架构通过解耦优化了Prefill和Decode的并行策略，提升了整体性能，支持灵活的资源配置。

如何在昇腾NPU上部署DeepSeek-V4模型？

通过Kthena控制器，使用声明式配置创建Prefill和Decode实例，并配置路由和KV传输。

🏷️