Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
💡
原文中文,约3000字,阅读约需7分钟。
📝
内容提要
Qwen3家族技术报告介绍了其双模式架构,支持推理和非推理任务,采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力,并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段,强化语言理解、推理能力和长文本处理,最终实现思考与非思考模式的无缝融合,增强多场景下的能力与稳定性。
🎯
关键要点
- Qwen3家族采用双模式架构,支持推理和非推理任务。
- 训练和微调过程采取分段式策略,逐步构建模型能力。
- 通过“大带小”蒸馏方法提升小模型能力。
- Qwen3系列包括6个密集模型和2个MoE模型,总参数量从0.6B到235B不等。
- 引入thinking budget概念,根据问题复杂程度动态分配计算资源。
- 预训练分为三个阶段,分别强化语言理解、推理能力和长文本处理。
- 后训练同样分为四个阶段,涵盖长思维链冷启动、推理强化学习、思维模式融合和通用强化学习。
- 蒸馏过程分为Off-policy和On-policy两个阶段,模拟教师模型的输出。
- Qwen Chat上线深度研究功能,能够生成研究报告并导出pdf。
❓
延伸问答
Qwen3家族的双模式架构有什么特点?
Qwen3家族的双模式架构支持推理和非推理任务,能够根据需要自动切换模式。
Qwen3的训练过程是如何分阶段进行的?
Qwen3的训练分为三个阶段,分别强化语言理解、推理能力和长文本处理。
什么是思考预算(thinking budget),它的作用是什么?
思考预算是决定计算资源投入的参数,依据问题复杂程度动态分配,以优化模型的响应速度和准确性。
Qwen3家族的蒸馏方法是怎样的?
Qwen3采用“大带小”的蒸馏方法,分为Off-policy和On-policy两个阶段,通过教师模型生成高质量输出训练学生模型。
Qwen3在后训练阶段的主要目标是什么?
后训练阶段的主要目标是增强模型在多种场景下的能力和稳定性,涵盖多个任务的强化学习。
Qwen Chat的深度研究功能是如何工作的?
Qwen Chat的深度研究功能通过描述问题并细化提问,能够生成研究报告并导出pdf,过程大约需要8分钟。
➡️