量子位 ·

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

研究团队复刻了DeepSeek-R1-Zero，发现简化的强化学习训练方法能在少量步骤内达到相似效果，复杂的奖励函数并非必要。Open Reasoner Zero模型在基准测试中表现优异，训练数据和代码已完全开源。

🎯

关键要点

研究团队复刻了DeepSeek-R1-Zero，发现简化的强化学习训练方法能在少量步骤内达到相似效果。
复杂的奖励函数并非必要，使用GAE的原版PPO可以有效扩展RL训练。
在训练步骤约680步时，模型的训练奖励值、反思能力和回答长度显著提升，出现类似“顿悟时刻”。
Open Reasoner Zero模型在基准测试中表现优异，超越Qwen2.5 Instruct。
研究训练数据、训练代码、论文、模型已100%开源，许可证为MIT License。
扩大数据数量和多样性对Open Reasoner Zero的训练至关重要。

❓

延伸问答

DeepSeek-R1-Zero的复刻研究有什么重要发现？

研究发现简化的强化学习训练方法能在少量步骤内达到相似效果，复杂的奖励函数并非必要。

Open Reasoner Zero模型的表现如何？

Open Reasoner Zero模型在基准测试中表现优异，超越了Qwen2.5 Instruct。

训练过程中出现的“顿悟时刻”是什么？

在训练步骤约680步时，模型的训练奖励值、反思能力和回答长度显著提升，出现类似“顿悟时刻”。

该研究的训练数据和代码是否开源？

是的，研究的训练数据、训练代码、论文和模型已100%开源，许可证为MIT License。

如何有效扩展强化学习训练？

使用带有GAE的原版PPO和基于规则的奖励函数可以有效扩展RL训练，复杂的奖励函数不是必要的。

数据数量和多样性对训练有什么影响？

扩大数据数量和多样性对Open Reasoner Zero的训练至关重要，可以实现持续扩展，避免性能饱和。

🏷️

继续阅读

[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
Crown Engine 0.63 恢复了其 OpenGL 渲染器，以支持旧版硬件
Crown Engine 0.63 是一款基于 C++ 的开源游戏引擎，新增 LOD 组组件以优化性能，并支持 OBJ 网格格式。更新改进了 FBX 导入...
阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...