vllm 中的 GDN
💡
原文中文,约5500字,阅读约需13分钟。
📝
内容提要
Qwen3-Next PD 分离机制上线,介绍了 Gated Delta Rule 的计算流程及 vllm 实现,包括推理和训练阶段的 recurrent 和 chunk 两种形式,以及相关计算公式和实现细节。
🎯
关键要点
- Qwen3-Next PD 分离机制上线,介绍 Gated Delta Rule 的计算流程及 vllm 实现。
- Gated Delta Rule 有两种形式:recurrent 和 chunk,前者适用于推理的 decode 阶段,后者适用于推理的 prefill 和训练阶段。
- recurrent 实现的计算公式包括 S_t 和 o_t 的计算,入口为 fused_recurrent_gated_delta_rule。
- fused_recurrent_gated_delta_rule 的参数说明包括 token 数、头数等,涉及 kvcache 的使用。
- chunk 实现的计算公式包括 A_t、T_t、W_t 等的计算,入口为 chunk_gated_delta_rule。
- chunk 实现将请求输入 token 切分为 chunk,并行计算每个 chunk 的结果。
❓
延伸问答
Gated Delta Rule 的两种形式分别是什么?
Gated Delta Rule 有两种形式:recurrent 和 chunk。
recurrent 实现的计算公式是什么?
recurrent 实现的计算公式包括 S_t 和 o_t 的计算,入口为 fused_recurrent_gated_delta_rule。
chunk 实现的计算流程是怎样的?
chunk 实现将请求输入 token 切分为 chunk,并行计算每个 chunk 的结果,入口为 chunk_gated_delta_rule。
fused_recurrent_gated_delta_rule 的参数说明有哪些?
参数包括 token 数、头数等,涉及 kvcache 的使用,具体参数如 B、T、H、HV 等。
Gated Delta Rule 在推理和训练阶段的应用分别是什么?
recurrent 适用于推理的 decode 阶段,chunk 适用于推理的 prefill 和训练阶段。
Gated Delta Rule 的计算公式中涉及哪些变量?
计算公式中涉及的变量包括 S_t、o_t、k_t、v_t、q_t 等。
🏷️
标签
➡️