揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

研究人员分析了DeepSeek-V3和Qwen2.5模型在强化学习中的表现，发现它们在预训练阶段已具备推理能力，并提出了无偏优化方法Dr. GRPO，以提高token效率并解决优化偏差。研究表明，模板对模型性能至关重要，强化学习显著提升了解题能力。

DeepSeek-V3 Dr. GRPO Qwen2.5 deepseek r1 强化学习推理能力