出人意料！DeepSeek-R1用的GRPO其实没必要？规模化强化学习训练用PPO就够了

机器之心 ·

出人意料！DeepSeek-R1用的GRPO其实没必要？规模化强化学习训练用PPO就够了

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

研究表明，DeepSeek-R1 的核心算法 GRPO 对推理模型并不重要。使用普通 PPO 和简单奖励函数即可提升推理性能，开发的开源项目 Open-Reasoner-Zero 表现优于 DeepSeek-R1-Zero，且训练效率更高。

🎯

关键要点

DeepSeek-R1 的核心算法 GRPO 对推理模型并不重要。
使用普通 PPO 和简单奖励函数即可提升推理性能。
Open-Reasoner-Zero 表现优于 DeepSeek-R1-Zero，且训练效率更高。
GRPO 去掉了价值模型，通过分组分数估计基线，减少训练资源。
基础模型使用 Qwen2.5-{7B, 32B}，不经过微调开始训练。
数据集包含 57k 样本，涵盖 STEM、数学和推理领域。
采用简单的规则式奖励函数，仅检查答案的正确性。
GAE 参数 λ = 1.0 和 γ = 1.0 在 PPO 推理任务中起关键作用。
简单的基于规则的奖励函数是最佳选择，避免奖励 hacking。
扩大数据量和多样性对训练至关重要。
Open-Reasoner-Zero 模型在训练过程中表现出持续改进。
模型在训练中出现了「阶跃时刻」现象，推理能力涌现。
Open-Reasoner-Zero-32B 模型用 1/5.8 的训练步数实现相当的响应长度。
模型生成的响应中包含更多的反思模式，利用更多的思考时间。
Open-Reasoner-Zero 32B 模型在泛化能力上表现强大，优于 Qwen2.5 Instruct 32B。

❓

延伸问答

DeepSeek-R1的核心算法GRPO有什么问题？

研究表明，GRPO对推理模型并不重要，使用普通PPO和简单奖励函数即可提升推理性能。

Open-Reasoner-Zero与DeepSeek-R1-Zero相比有什么优势？

Open-Reasoner-Zero在GPQA Diamond基准上的表现优于DeepSeek-R1-Zero，并且训练效率更高，仅需1/30的训练步数。

在训练中使用的奖励函数是什么样的？

采用简单的规则式奖励函数，仅检查答案的正确性，完全匹配奖励为1，其他情况奖励为0。

GAE参数在PPO推理任务中起什么作用？

GAE参数λ=1.0和γ=1.0在PPO推理任务中起关键作用，提供偏差与方差的权衡。

Open-Reasoner-Zero模型的训练数据集包含什么内容？

数据集包含57k样本，涵盖STEM、数学和推理领域，旨在增强模型在复杂问题求解中的能力。

为什么简单的奖励函数被认为是最佳选择？

简单的奖励函数避免了奖励hacking的潜在空间，并且能够快速适应所需的格式，表明这是简单的任务。

🏷️

继续阅读

DeepSeek V4 发布没炸场，却靠降价掀起革命？
DeepSeek V4 发布后，通过降价策略打破了高 Token 价格和订阅套餐的束缚，用户可按需付费，吸引了更多低频用户，改变了市场格局。
国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
【Rust日报】2026-05-01 Rust 原生数据表格组件 uiGrid 发布
Rust开发者推出了功能丰富的uiGrid数据表格组件，支持分组、过滤、排序等操作，具备树形视图和单元格编辑功能。该项目已开源，采用MIT许可证，支持自定...
早报｜苹果：下季度内存成本压力将显著加大/宇树最便宜人形机器发布/5月1日高速车流或创历史纪录
iPhone 18 Pro预计将进行重大相机升级，配备可变光圈和新Siri模式，用户可通过AI服务提问。苹果毛利率创历史新高，但内存成本压力加大。三星Q1...
蒂姆·费里斯秀文字记录：埃拉德·吉尔，帝国建设者的顾问——如何在其他人之前发现十亿美元公司，模糊的AI前沿，可口可乐如何击败百事，何时共识获利，以及更多内容 (#863)
Elad Gil在访谈中讨论了AI领域的最新动态，包括Meta对AI人才的争夺和计算能力的限制。他指出，AI公司薪酬激增类似于IPO，导致人才流动和市场变...