💡
原文中文,约5100字,阅读约需13分钟。
📝
内容提要
研究表明,DeepSeek-R1 的核心算法 GRPO 对推理模型并不重要。使用普通 PPO 和简单奖励函数即可提升推理性能,开发的开源项目 Open-Reasoner-Zero 表现优于 DeepSeek-R1-Zero,且训练效率更高。
🎯
关键要点
- DeepSeek-R1 的核心算法 GRPO 对推理模型并不重要。
- 使用普通 PPO 和简单奖励函数即可提升推理性能。
- Open-Reasoner-Zero 表现优于 DeepSeek-R1-Zero,且训练效率更高。
- GRPO 去掉了价值模型,通过分组分数估计基线,减少训练资源。
- 基础模型使用 Qwen2.5-{7B, 32B},不经过微调开始训练。
- 数据集包含 57k 样本,涵盖 STEM、数学和推理领域。
- 采用简单的规则式奖励函数,仅检查答案的正确性。
- GAE 参数 λ = 1.0 和 γ = 1.0 在 PPO 推理任务中起关键作用。
- 简单的基于规则的奖励函数是最佳选择,避免奖励 hacking。
- 扩大数据量和多样性对训练至关重要。
- Open-Reasoner-Zero 模型在训练过程中表现出持续改进。
- 模型在训练中出现了「阶跃时刻」现象,推理能力涌现。
- Open-Reasoner-Zero-32B 模型用 1/5.8 的训练步数实现相当的响应长度。
- 模型生成的响应中包含更多的反思模式,利用更多的思考时间。
- Open-Reasoner-Zero 32B 模型在泛化能力上表现强大,优于 Qwen2.5 Instruct 32B。
❓
延伸问答
DeepSeek-R1的核心算法GRPO有什么问题?
研究表明,GRPO对推理模型并不重要,使用普通PPO和简单奖励函数即可提升推理性能。
Open-Reasoner-Zero与DeepSeek-R1-Zero相比有什么优势?
Open-Reasoner-Zero在GPQA Diamond基准上的表现优于DeepSeek-R1-Zero,并且训练效率更高,仅需1/30的训练步数。
在训练中使用的奖励函数是什么样的?
采用简单的规则式奖励函数,仅检查答案的正确性,完全匹配奖励为1,其他情况奖励为0。
GAE参数在PPO推理任务中起什么作用?
GAE参数λ=1.0和γ=1.0在PPO推理任务中起关键作用,提供偏差与方差的权衡。
Open-Reasoner-Zero模型的训练数据集包含什么内容?
数据集包含57k样本,涵盖STEM、数学和推理领域,旨在增强模型在复杂问题求解中的能力。
为什么简单的奖励函数被认为是最佳选择?
简单的奖励函数避免了奖励hacking的潜在空间,并且能够快速适应所需的格式,表明这是简单的任务。
➡️