一文通透Qwen LLM系列——从Qwen、Qwen1.5、Qwen2、Qwen2.5到Qwen3(融合了chat和推理)、Qwen3 MoE

💡 原文中文,约7900字,阅读约需19分钟。
📝

内容提要

文章讨论了Qwen3模型的架构与预训练过程,强调其在多语言和长上下文处理上的优势。Qwen3通过三个阶段的预训练提升语言能力,结合思维模式融合和强化学习,优化了推理能力和响应质量。

🎯

关键要点

  • 文章讨论了Qwen3模型的架构与预训练过程,强调其在多语言和长上下文处理上的优势。
  • Qwen3通过三个阶段的预训练提升语言能力,结合思维模式融合和强化学习,优化了推理能力和响应质量。
  • Qwen3系列包括多个稠密模型和MoE模型,旗舰模型Qwen3-235B-A22B拥有2350亿参数。
  • Qwen3的稠密模型架构与Qwen2.5相似,采用分组查询注意力、SwiGLU、旋转位置嵌入等技术。
  • 预训练数据规模和多样性大幅扩展,涵盖119种语言和方言,总计36万亿个标记。
  • Qwen3模型的预训练分为通用、推理和长上下文三个阶段,分别针对不同的能力进行优化。
  • 后训练流程设计了思维控制和强到弱蒸馏两个核心目标,提升模型的推理能力和效率。
  • 思维模式融合阶段将“非思维”能力整合到“思维”模型中,减少部署复杂性。
  • 通用强化学习阶段建立复杂的奖励系统,提升模型在多种场景下的能力和稳定性。
  • 强到弱蒸馏流程优化轻量级模型,提升性能和模式切换能力。

延伸问答

Qwen3模型的主要特点是什么?

Qwen3模型在多语言和长上下文处理上具有优势,采用了分组查询注意力等技术,拥有2350亿参数的旗舰模型。

Qwen3的预训练过程分为几个阶段?

Qwen3的预训练过程分为通用、推理和长上下文三个阶段,分别针对不同能力进行优化。

Qwen3如何提升推理能力?

Qwen3通过增加STEM和编程数据的比例,以及优化学习率衰减速度来提升推理能力。

Qwen3的后训练流程有哪些核心目标?

Qwen3的后训练流程旨在实现思维控制和强到弱蒸馏两个核心目标,以提升模型的推理能力和效率。

Qwen3的预训练数据规模如何?

Qwen3的预训练数据规模涵盖119种语言和方言,总计36万亿个标记,数据多样性大幅提升。

Qwen3的思维模式融合阶段有什么重要性?

思维模式融合阶段将“非思维”能力整合到“思维”模型中,减少部署复杂性并提升推理控制。

➡️

继续阅读