小红花·文摘

Qwen3家族技术报告介绍了其双模式架构，支持推理和非推理任务，采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力，并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段，强化语言理解、推理能力和长文本处理，最终实现思考与非思考模式的无缝融合，增强多场景下的能力与稳定性。