Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型

💡 原文中文,约3000字,阅读约需7分钟。
📝

内容提要

Qwen3家族技术报告介绍了其双模式架构,支持推理和非推理任务,采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力,并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段,强化语言理解、推理能力和长文本处理,最终实现思考与非思考模式的无缝融合,增强多场景下的能力与稳定性。

🎯

关键要点

  • Qwen3家族采用双模式架构,支持推理和非推理任务。
  • 训练和微调过程采取分段式策略,逐步构建模型能力。
  • 通过“大带小”蒸馏方法提升小模型能力。
  • Qwen3系列包括6个密集模型和2个MoE模型,总参数量从0.6B到235B不等。
  • 引入thinking budget概念,根据问题复杂程度动态分配计算资源。
  • 预训练分为三个阶段,分别强化语言理解、推理能力和长文本处理。
  • 后训练同样分为四个阶段,涵盖长思维链冷启动、推理强化学习、思维模式融合和通用强化学习。
  • 蒸馏过程分为Off-policy和On-policy两个阶段,模拟教师模型的输出。
  • Qwen Chat上线深度研究功能,能够生成研究报告并导出pdf。

延伸问答

Qwen3家族的双模式架构有什么特点?

Qwen3家族的双模式架构支持推理和非推理任务,能够根据需要自动切换模式。

Qwen3的训练过程是如何分阶段进行的?

Qwen3的训练分为三个阶段,分别强化语言理解、推理能力和长文本处理。

什么是思考预算(thinking budget),它的作用是什么?

思考预算是决定计算资源投入的参数,依据问题复杂程度动态分配,以优化模型的响应速度和准确性。

Qwen3家族的蒸馏方法是怎样的?

Qwen3采用“大带小”的蒸馏方法,分为Off-policy和On-policy两个阶段,通过教师模型生成高质量输出训练学生模型。

Qwen3在后训练阶段的主要目标是什么?

后训练阶段的主要目标是增强模型在多种场景下的能力和稳定性,涵盖多个任务的强化学习。

Qwen Chat的深度研究功能是如何工作的?

Qwen Chat的深度研究功能通过描述问题并细化提问,能够生成研究报告并导出pdf,过程大约需要8分钟。

➡️

继续阅读