vLLM 现已支持 Qwen3-Next:极高效率的混合架构

vLLM 现已支持 Qwen3-Next:极高效率的混合架构

💡 原文英文,约600词,阅读约需3分钟。
📝

内容提要

vLLM现已支持Qwen3-Next,采用混合架构以提升长上下文处理效率,创新点包括混合注意力、高稀疏MoE和多标记预测。

🎯

关键要点

  • vLLM现已支持Qwen3-Next,这是Qwen团队最新一代的基础模型。
  • Qwen3-Next采用混合架构,极大提升了长上下文处理的效率。
  • Qwen3-Next的创新包括混合注意力、高稀疏MoE和多标记预测。
  • 混合注意力设计结合了门控DeltaNet和全注意力,支持高达65K的上下文长度。
  • vLLM集成了Flash Linear Attention的Triton内核,优化了GPU利用率。
  • 高稀疏MoE层在80B-A3B模型中实现了1:50的激活比率,提升了吞吐量和延迟。
  • 多标记预测功能提高了预训练效率和推理速度,vLLM原生支持此模式。
  • 未来计划包括进一步优化GatedDeltaNet层和改进内存管理。

延伸问答

Qwen3-Next的主要创新点是什么?

Qwen3-Next的主要创新点包括混合注意力、高稀疏MoE和多标记预测。

vLLM如何支持Qwen3-Next的混合架构?

vLLM通过集成Flash Linear Attention的Triton内核和混合KV缓存管理器来支持Qwen3-Next的混合架构。

Qwen3-Next的混合注意力设计有什么优势?

混合注意力设计结合了门控DeltaNet和全注意力,支持高达65K的上下文长度,提升了长上下文处理效率。

高稀疏MoE层在Qwen3-Next中如何提高效率?

高稀疏MoE层在80B-A3B模型中实现了1:50的激活比率,从而提升了吞吐量和延迟。

多标记预测功能对Qwen3-Next的影响是什么?

多标记预测功能提高了预训练效率和推理速度,允许Qwen3-Next每步解码多个标记。

未来对Qwen3-Next的计划有哪些?

未来计划包括进一步优化GatedDeltaNet层和改进内存管理,以及支持自动前缀缓存和P/D分离。

➡️

继续阅读