揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案
研究人员分析了DeepSeek-V3和Qwen2.5模型在强化学习中的表现,发现它们在预训练阶段已具备推理能力,并提出了无偏优化方法Dr. GRPO,以提高token效率并解决优化偏差。研究表明,模板对模型性能至关重要,强化学习显著提升了解题能力。

研究人员分析了DeepSeek-V3和Qwen2.5模型在强化学习中的表现,发现它们在预训练阶段已具备推理能力,并提出了无偏优化方法Dr. GRPO,以提高token效率并解决优化偏差。研究表明,模板对模型性能至关重要,强化学习显著提升了解题能力。