vLLM现已支持Qwen3-Next,采用混合架构以提升长上下文处理效率,创新点包括混合注意力、高稀疏MoE和多标记预测。
本研究探讨了在下一个标记预测预训练的LLM中,多标记预测(MTP)的能力。结果表明,MTP性能受数据依赖影响,并随着模型规模增大而改善。尽管MTP头与主干联合训练能提升性能,但仍存在隐藏层专门化问题,需进一步研究。
完成下面两步后,将自动完成登录并继续当前操作。