研究团队复刻了DeepSeek-R1-Zero,发现简化的强化学习训练方法能在少量步骤内达到相似效果,复杂的奖励函数并非必要。Open Reasoner Zero模型在基准测试中表现优异,训练数据和代码已完全开源。
研究表明,DeepSeek-R1 的核心算法 GRPO 对推理模型并不重要。使用普通 PPO 和简单奖励函数即可提升推理性能,开发的开源项目 Open-Reasoner-Zero 表现优于 DeepSeek-R1-Zero,且训练效率更高。
完成下面两步后,将自动完成登录并继续当前操作。