出人意料!DeepSeek-R1用的GRPO其实没必要?规模化强化学习训练用PPO就够了

出人意料!DeepSeek-R1用的GRPO其实没必要?规模化强化学习训练用PPO就够了

💡 原文中文,约5100字,阅读约需13分钟。
📝

内容提要

研究表明,DeepSeek-R1 的核心算法 GRPO 对推理模型并不重要。使用普通 PPO 和简单奖励函数即可提升推理性能,开发的开源项目 Open-Reasoner-Zero 表现优于 DeepSeek-R1-Zero,且训练效率更高。

🎯

关键要点

  • DeepSeek-R1 的核心算法 GRPO 对推理模型并不重要。
  • 使用普通 PPO 和简单奖励函数即可提升推理性能。
  • Open-Reasoner-Zero 表现优于 DeepSeek-R1-Zero,且训练效率更高。
  • GRPO 去掉了价值模型,通过分组分数估计基线,减少训练资源。
  • 基础模型使用 Qwen2.5-{7B, 32B},不经过微调开始训练。
  • 数据集包含 57k 样本,涵盖 STEM、数学和推理领域。
  • 采用简单的规则式奖励函数,仅检查答案的正确性。
  • GAE 参数 λ = 1.0 和 γ = 1.0 在 PPO 推理任务中起关键作用。
  • 简单的基于规则的奖励函数是最佳选择,避免奖励 hacking。
  • 扩大数据量和多样性对训练至关重要。
  • Open-Reasoner-Zero 模型在训练过程中表现出持续改进。
  • 模型在训练中出现了「阶跃时刻」现象,推理能力涌现。
  • Open-Reasoner-Zero-32B 模型用 1/5.8 的训练步数实现相当的响应长度。
  • 模型生成的响应中包含更多的反思模式,利用更多的思考时间。
  • Open-Reasoner-Zero 32B 模型在泛化能力上表现强大,优于 Qwen2.5 Instruct 32B。

延伸问答

DeepSeek-R1的核心算法GRPO有什么问题?

研究表明,GRPO对推理模型并不重要,使用普通PPO和简单奖励函数即可提升推理性能。

Open-Reasoner-Zero与DeepSeek-R1-Zero相比有什么优势?

Open-Reasoner-Zero在GPQA Diamond基准上的表现优于DeepSeek-R1-Zero,并且训练效率更高,仅需1/30的训练步数。

在训练中使用的奖励函数是什么样的?

采用简单的规则式奖励函数,仅检查答案的正确性,完全匹配奖励为1,其他情况奖励为0。

GAE参数在PPO推理任务中起什么作用?

GAE参数λ=1.0和γ=1.0在PPO推理任务中起关键作用,提供偏差与方差的权衡。

Open-Reasoner-Zero模型的训练数据集包含什么内容?

数据集包含57k样本,涵盖STEM、数学和推理领域,旨在增强模型在复杂问题求解中的能力。

为什么简单的奖励函数被认为是最佳选择?

简单的奖励函数避免了奖励hacking的潜在空间,并且能够快速适应所需的格式,表明这是简单的任务。

➡️

继续阅读