vLLM现已支持Qwen3-Next,采用混合架构以提升长上下文处理效率,创新点包括混合注意力、高稀疏MoE和多标记预测。
本研究分析了预训练大语言模型中的多标记预测(MTP)能力,发现其性能受数据依赖影响,且模型规模增大可提升性能。联合训练MTP头与主干可改善性能,但无法完全解决隐藏层专门化问题。
完成下面两步后,将自动完成登录并继续当前操作。