Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型

💡 原文中文,约3000字,阅读约需7分钟。
📝

内容提要

Qwen3家族技术报告介绍了其双模式架构,支持推理和非推理任务,采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力,并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段,强化语言理解、推理能力和长文本处理,最终实现思考与非思考模式的无缝融合,增强多场景下的能力与稳定性。

🎯

关键要点

  • Qwen3家族采用双模式架构,支持推理和非推理任务。
  • 训练和微调过程采取分段式策略,逐步构建模型能力。
  • 通过“大带小”蒸馏方法提升小模型能力。
  • Qwen3系列包括6个密集模型和2个MoE模型,总参数量从0.6B到235B不等。
  • 引入thinking budget概念,根据问题复杂程度动态分配计算资源。
  • 预训练分为三个阶段,分别强化语言理解、推理能力和长文本处理。
  • 后训练同样分为四个阶段,涵盖长思维链冷启动、推理强化学习、思维模式融合和通用强化学习。
  • 蒸馏过程分为Off-policy和On-policy两个阶段,模拟教师模型的输出。
  • Qwen Chat上线深度研究功能,能够生成研究报告并导出pdf。
➡️

继续阅读