机器之心 ·

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

💡 原文中文，约6300字，阅读约需15分钟。

📝

内容提要

研究人员分析了DeepSeek-V3和Qwen2.5模型在强化学习中的表现，发现它们在预训练阶段已具备推理能力，并提出了无偏优化方法Dr. GRPO，以提高token效率并解决优化偏差。研究表明，模板对模型性能至关重要，强化学习显著提升了解题能力。

🎯

关键要点

研究人员分析了DeepSeek-V3和Qwen2.5模型在强化学习中的表现，发现它们在预训练阶段已具备推理能力。
提出了无偏优化方法Dr. GRPO，以提高token效率并解决优化偏差。
模板对模型性能至关重要，强化学习显著提升了解题能力。
DeepSeek-V3-Base和Qwen2.5模型在没有提示模板的情况下也展现出强大的推理能力。
研究表明，基础模型在强化学习之前已具备数学解题能力。
Dr. GRPO有效修复了GRPO在优化中的偏差，实现了更好的标记效率。
模型与模板不匹配会在强化学习重建之前破坏推理能力。
领域特定预训练可提升强化学习的上限，尤其是在数学推理方面。
研究揭示了预训练偏差如何影响强化学习的结果，提出了简单的修正方案以提高效率。

❓

延伸问答

DeepSeek-V3和Qwen2.5模型在强化学习中的表现如何？

研究表明，DeepSeek-V3和Qwen2.5模型在预训练阶段已具备推理能力，且在没有提示模板的情况下也展现出强大的推理能力。

什么是Dr. GRPO，它解决了什么问题？

Dr. GRPO是一种无偏优化方法，旨在提高token效率并解决GRPO中的优化偏差，保持推理性能。

模板在模型性能中起到什么作用？

模板对模型性能至关重要，能够显著提升基础模型的回答能力，尤其是在强化学习中。

研究中提到的“顿悟时刻”是什么？

“顿悟时刻”是指模型在训练过程中展现出自我反思等高级推理能力的现象。

如何提高强化学习的效率？

通过使用Dr. GRPO算法和领域特定的预训练，可以在保持推理性能的同时提高强化学习的效率。

预训练偏差如何影响强化学习的结果？

预训练偏差可能导致模型在强化学习中表现不佳，影响策略的优化方向和最终结果。

🏷️

继续阅读

Deploy背后的团队：以DigitalOcean的方式交付AI
在旧金山举行的Deploy 2026活动中，开发者与客户探讨了简化AI产品构建与扩展的方法。DigitalOcean推出了AI-Native Cloud，...
给 WordPress 7.0 的 AI 连接功能加上 DeepSeek 支持
WordPress 7.0 更新了 AI 连接功能，但仅支持国外提供商。为此，开发者推出了 WPJAM AI 插件，支持国内的 DeepSeek 等模型。...
NVIDIA研究解锁先进抓取技术、更智能的自动驾驶和大规模代理训练
NVIDIA的研究展示了通过大规模训练提升机器人抓取、自动驾驶和虚拟代理能力的突破。GraspGen-X模型适应不同抓手，LCDrive加速自动驾驶决策，...
谷歌搜索提升你的二手和复古购物的五种方式
2026年复古潮流再度兴起，用户对“复古”和“如何淘货”的搜索兴趣达到新高。借助Google工具，用户可以通过AI规划二手购物，使用Google Lens...
一起看比赛的超低延迟直播 + 实时解说连麦 + 高并发弹幕的工程方案
本文探讨了“一起看比赛”的技术方案，强调低延迟的重要性。比赛直播需确保观众同步看到进球，避免剧透。采用超低延迟直播（600ms~1s）和RTC解说连麦，结...
[指南] Codex账号需要绑定手机号码的临时绕过方案 (不是已绑账号跳过验证码)
Codex 账号需绑定手机号码，若未绑定可通过临时绕过方案解决。用户可关闭绑定界面，重新打开授权链接，利用前端漏洞绕过验证。建议长期使用手机号码以确保账号安全。