vLLM Blog ·

vLLM 现已支持 Qwen3-Next：极高效率的混合架构

💡 原文英文，约600词，阅读约需3分钟。

📝

内容提要

vLLM现已支持Qwen3-Next，采用混合架构以提升长上下文处理效率，创新点包括混合注意力、高稀疏MoE和多标记预测。

🎯

关键要点

vLLM现已支持Qwen3-Next，这是Qwen团队最新一代的基础模型。
Qwen3-Next采用混合架构，极大提升了长上下文处理的效率。
Qwen3-Next的创新包括混合注意力、高稀疏MoE和多标记预测。
混合注意力设计结合了门控DeltaNet和全注意力，支持高达65K的上下文长度。
vLLM集成了Flash Linear Attention的Triton内核，优化了GPU利用率。
高稀疏MoE层在80B-A3B模型中实现了1:50的激活比率，提升了吞吐量和延迟。
多标记预测功能提高了预训练效率和推理速度，vLLM原生支持此模式。
未来计划包括进一步优化GatedDeltaNet层和改进内存管理。

❓

延伸问答

Qwen3-Next的主要创新点是什么？

Qwen3-Next的主要创新点包括混合注意力、高稀疏MoE和多标记预测。

vLLM如何支持Qwen3-Next的混合架构？

vLLM通过集成Flash Linear Attention的Triton内核和混合KV缓存管理器来支持Qwen3-Next的混合架构。

Qwen3-Next的混合注意力设计有什么优势？

混合注意力设计结合了门控DeltaNet和全注意力，支持高达65K的上下文长度，提升了长上下文处理效率。

高稀疏MoE层在Qwen3-Next中如何提高效率？

高稀疏MoE层在80B-A3B模型中实现了1:50的激活比率，从而提升了吞吐量和延迟。

多标记预测功能对Qwen3-Next的影响是什么？

多标记预测功能提高了预训练效率和推理速度，允许Qwen3-Next每步解码多个标记。

未来对Qwen3-Next的计划有哪些？

未来计划包括进一步优化GatedDeltaNet层和改进内存管理，以及支持自动前缀缓存和P/D分离。

🏷️

继续阅读

别把 Go 写成 Java：毁掉项目从过度架构开始
本文探讨了Go语言开发中的过度架构问题，强调应避免复杂的目录结构和不必要的抽象。建议采用扁平化的项目结构，按业务能力划分包，减少内部依赖，保持代码简单易懂...
KVarN：华为用于KVCache量化的原生vLLM后端
华为开源的KVarN是一种KV Cache量化技术，通过Hadamard旋转和双轴方差归一化，有效解决大模型推理中的显存瓶颈。该技术在2-bit量化下保持...
《Control Resonant》是续集——同时也是一个入门点
《Control Resonant》是2019年游戏《Control》的续集，围绕主角Dylan探索超自然世界。玩家通过Dylan的视角体验超自然现象，游...
国会仍未能就无证监视问题达成一致
国会在重新授权《外国情报监视法》第702条款方面仍未达成一致。特朗普任命比尔·普尔特为国家情报局局长，导致共和党重新授权计划受阻。民主党反对延长该条款，原...
2026年夏季游戏节直播：最新消息、预告片和公告
2026年夏季游戏节直播将于东部时间下午5点开始，持续两小时，展示众多游戏新闻和新作。活动在洛杉矶的杜比剧院举行，并在YouTube直播。亮点包括《控制：...
计算与人工智能中的关键人类因素
麻省理工学院计算机伦理研究研讨会讨论了人工智能对社会的影响，强调伦理与技术进步的结合。专家们探讨了AI与人类价值观的对齐问题，以及在教育中有效使用AI工具...