bang's blog ·

DeepSeek R1 是怎么训练出来的？- R1 论文精读

💡 原文中文，约6000字，阅读约需15分钟。

📝

内容提要

DeepSeek通过强化学习推出了R1模型，其推理能力接近OpenAI的o1。R1-Zero证明了无需监督学习也能提升推理能力，并采用GRPO算法降低计算成本。训练过程中，模型输出逐渐增加，展现出自我反思能力。最终，R1在推理基准测试中表现优异，尤其在中文环境下，显示出DeepSeek的创新潜力。

🎯

❓

DeepSeek R1模型的推理能力接近OpenAI的o1，尤其在中文环境下表现优异。

R1-Zero通过强化学习证明了无需监督学习，模型可以自主涌现推理能力。

GRPO算法使用一组输出选择最佳结果，而PPO算法则是单个输出的评估和更新，GRPO降低了计算成本。

DeepSeek通过强化学习让模型学会思维链，逐步提升推理能力，最终达到高效的输出。

R1模型的训练过程分为两个阶段，首先进行监督式微调(SFT)，然后进行强化学习(RL)。

R1模型在中文环境下的表现显著优于其他模型，显示出DeepSeek的创新潜力。

🏷️

便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
奥迪 R8 继任者发布！大 V8+千匹马力，走的却是复古风
奥迪重新走向「运动」#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
我用彩色配件定制了一台MacBook Neo
苹果的MacBook Neo是最便宜、色彩丰富且易于维修的笔记本电脑。用户可以自行更换彩色配件，尽管成本较高。作者尝试定制Neo，替换触控板、底壳和键帽，...
阿里开源Open Code Review：一款AI代码评审命令行工具
代码审查还在靠人工一行一行看？阿里把这个内部AI工具开源了 Open Code Review（简称 OCR）是阿里巴巴于 2026 年开源的 AI 代码...
本周赛博领鸡蛋：《征服之歌》（5.30~6.5）
本周 Epic Games 送出 2 款桌面游戏、1 款手机游戏，分别是《征服之歌》《Rogue Waters / 恶棍水域》和手机游戏《Wytchwoo...
论独立游戏的起步立项方法论
独立游戏的成功依赖于立项阶段的清晰规划。开发者需关注可发行最小规格、财务回报率和产品定位，明确目标、合理分配资源，避免过度追求完美，以确保项目按时完成。市...