量子位 ·

Qwen3家族训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏带动小模型

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

Qwen3家族技术报告介绍了其双模式架构，支持推理和非推理任务，采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力，并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段，强化语言理解、推理能力和长文本处理，最终实现思考与非思考模式的无缝融合，增强多场景下的能力与稳定性。

🎯

🔎

Qwen3的双模式架构使其能够灵活应对不同类型的任务，既能处理复杂的推理问题，又能快速响应简单查询。这种设计不仅提高了模型的适用性，还能在实际应用中根据需求动态调整计算资源，提升效率。

引入的思考预算概念使得Qwen3能够根据输入问题的复杂程度灵活分配计算资源。这种动态分配机制能够有效优化模型的响应时间和准确性，尤其在处理多样化问题时，展现出更强的适应能力。

Qwen3采用的“大带小”蒸馏方法，通过教师模型生成高质量输出，帮助小模型快速学习。这种分阶段的蒸馏策略不仅提高了小模型的能力，还确保了其在思考和非思考模式下的表现一致性，具有重要的实用价值。

❓

Qwen3家族的双模式架构支持推理和非推理任务，能够根据需要自动切换模式。

Qwen3的训练分为三个阶段，分别强化语言理解、推理能力和长文本处理。

思考预算是决定计算资源投入的参数，依据问题复杂程度动态分配，以优化模型的响应速度和准确性。

Qwen3采用“大带小”的蒸馏方法，分为Off-policy和On-policy两个阶段，通过教师模型生成高质量输出训练学生模型。

后训练阶段的主要目标是增强模型在多种场景下的能力和稳定性，涵盖多个任务的强化学习。

Qwen Chat的深度研究功能通过描述问题并细化提问，能够生成研究报告并导出pdf，过程大约需要8分钟。

🏷️