小红花·文摘 - 小红花技术领袖俱乐部

研究团队复刻了DeepSeek-R1-Zero，发现简化的强化学习训练方法能在少量步骤内达到相似效果，复杂的奖励函数并非必要。Open Reasoner Zero模型在基准测试中表现优异，训练数据和代码已完全开源。

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

量子位 ·

出人意料！DeepSeek-R1用的GRPO其实没必要？规模化强化学习训练用PPO就够了

出人意料！DeepSeek-R1用的GRPO其实没必要？规模化强化学习训练用PPO就够了

机器之心 ·