vllm 中的 GDN

💡 原文中文,约5500字,阅读约需13分钟。
📝

内容提要

Qwen3-Next PD 分离机制上线,介绍了 Gated Delta Rule 的计算流程及 vllm 实现,包括推理和训练阶段的 recurrent 和 chunk 两种形式,以及相关计算公式和实现细节。

🎯

关键要点

  • Qwen3-Next PD 分离机制上线,介绍 Gated Delta Rule 的计算流程及 vllm 实现。
  • Gated Delta Rule 有两种形式:recurrent 和 chunk,前者适用于推理的 decode 阶段,后者适用于推理的 prefill 和训练阶段。
  • recurrent 实现的计算公式包括 S_t 和 o_t 的计算,入口为 fused_recurrent_gated_delta_rule。
  • fused_recurrent_gated_delta_rule 的参数说明包括 token 数、头数等,涉及 kvcache 的使用。
  • chunk 实现的计算公式包括 A_t、T_t、W_t 等的计算,入口为 chunk_gated_delta_rule。
  • chunk 实现将请求输入 token 切分为 chunk,并行计算每个 chunk 的结果。

延伸问答

Gated Delta Rule 的两种形式分别是什么?

Gated Delta Rule 有两种形式:recurrent 和 chunk。

recurrent 实现的计算公式是什么?

recurrent 实现的计算公式包括 S_t 和 o_t 的计算,入口为 fused_recurrent_gated_delta_rule。

chunk 实现的计算流程是怎样的?

chunk 实现将请求输入 token 切分为 chunk,并行计算每个 chunk 的结果,入口为 chunk_gated_delta_rule。

fused_recurrent_gated_delta_rule 的参数说明有哪些?

参数包括 token 数、头数等,涉及 kvcache 的使用,具体参数如 B、T、H、HV 等。

Gated Delta Rule 在推理和训练阶段的应用分别是什么?

recurrent 适用于推理的 decode 阶段,chunk 适用于推理的 prefill 和训练阶段。

Gated Delta Rule 的计算公式中涉及哪些变量?

计算公式中涉及的变量包括 S_t、o_t、k_t、v_t、q_t 等。

➡️

继续阅读