结构之法算法之道 ·

一文通透Qwen LLM系列——从Qwen、Qwen1.5、Qwen2、Qwen2.5到Qwen3(融合了chat和推理)、Qwen3 MoE

💡 原文中文，约7900字，阅读约需19分钟。

📝

内容提要

文章讨论了Qwen3模型的架构与预训练过程，强调其在多语言和长上下文处理上的优势。Qwen3通过三个阶段的预训练提升语言能力，结合思维模式融合和强化学习，优化了推理能力和响应质量。

🎯

关键要点

文章讨论了Qwen3模型的架构与预训练过程，强调其在多语言和长上下文处理上的优势。
Qwen3通过三个阶段的预训练提升语言能力，结合思维模式融合和强化学习，优化了推理能力和响应质量。
Qwen3系列包括多个稠密模型和MoE模型，旗舰模型Qwen3-235B-A22B拥有2350亿参数。
Qwen3的稠密模型架构与Qwen2.5相似，采用分组查询注意力、SwiGLU、旋转位置嵌入等技术。
预训练数据规模和多样性大幅扩展，涵盖119种语言和方言，总计36万亿个标记。
Qwen3模型的预训练分为通用、推理和长上下文三个阶段，分别针对不同的能力进行优化。
后训练流程设计了思维控制和强到弱蒸馏两个核心目标，提升模型的推理能力和效率。
思维模式融合阶段将“非思维”能力整合到“思维”模型中，减少部署复杂性。
通用强化学习阶段建立复杂的奖励系统，提升模型在多种场景下的能力和稳定性。
强到弱蒸馏流程优化轻量级模型，提升性能和模式切换能力。

❓

延伸问答

Qwen3模型的主要特点是什么？

Qwen3模型在多语言和长上下文处理上具有优势，采用了分组查询注意力等技术，拥有2350亿参数的旗舰模型。

Qwen3的预训练过程分为几个阶段？

Qwen3的预训练过程分为通用、推理和长上下文三个阶段，分别针对不同能力进行优化。

Qwen3如何提升推理能力？

Qwen3通过增加STEM和编程数据的比例，以及优化学习率衰减速度来提升推理能力。

Qwen3的后训练流程有哪些核心目标？

Qwen3的后训练流程旨在实现思维控制和强到弱蒸馏两个核心目标，以提升模型的推理能力和效率。

Qwen3的预训练数据规模如何？

Qwen3的预训练数据规模涵盖119种语言和方言，总计36万亿个标记，数据多样性大幅提升。

Qwen3的思维模式融合阶段有什么重要性？

思维模式融合阶段将“非思维”能力整合到“思维”模型中，减少部署复杂性并提升推理控制。

🏷️

继续阅读

SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
技嘉科技推出INFINITY系列限定产品
技嘉科技在COMPUTEX 2026展前发布了INFINITY系列限定产品，以庆祝成立40周年。新产品包括支持DDR5 11400 MT/s的X870 A...
育碧曾经最重要的游戏系列，正式回归
又搬一个救兵。育碧在今天正式公布了又一款新游戏《雷曼传奇再叙》，预定于10月1日发售。该作品名义上是2013年发售的游戏《雷曼传奇》的重制版，但不仅使用最...
使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
基于 Amazon ECS Fargate 和 Graviton 构建企业级多租户 AI Agent 平台：OpenClaw + Hermes 双 Agent 实践
AI Agent 从实验走向生产，企业需要让不同团队各跑独立实例且互不可见。本文介绍基于 Amazon ECS Fargate + Graviton 的轻...