Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
💡
原文中文,约3000字,阅读约需7分钟。
📝
内容提要
Qwen3家族技术报告介绍了其双模式架构,支持推理和非推理任务,采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力,并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段,强化语言理解、推理能力和长文本处理,最终实现思考与非思考模式的无缝融合,增强多场景下的能力与稳定性。
🎯
关键要点
- Qwen3家族采用双模式架构,支持推理和非推理任务。
- 训练和微调过程采取分段式策略,逐步构建模型能力。
- 通过“大带小”蒸馏方法提升小模型能力。
- Qwen3系列包括6个密集模型和2个MoE模型,总参数量从0.6B到235B不等。
- 引入thinking budget概念,根据问题复杂程度动态分配计算资源。
- 预训练分为三个阶段,分别强化语言理解、推理能力和长文本处理。
- 后训练同样分为四个阶段,涵盖长思维链冷启动、推理强化学习、思维模式融合和通用强化学习。
- 蒸馏过程分为Off-policy和On-policy两个阶段,模拟教师模型的输出。
- Qwen Chat上线深度研究功能,能够生成研究报告并导出pdf。
➡️