蝈蝈俊 ·

DeepSeek-R1的四个训练阶段 - 蝈蝈俊

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

DeepSeek-R1的训练分为四个阶段：冷启动、推理强化学习、拒绝采样与监督微调、全场景强化学习。前两个阶段通过SFT和RL提升推理能力和稳定性，后两个阶段增强模型的通用性与人类偏好的对齐，最终实现高性能。

🎯

❓

DeepSeek-R1的训练分为四个阶段：冷启动、推理强化学习、拒绝采样与监督微调、全场景强化学习。

冷启动阶段的主要目标是解决初始不稳定性和可读性差的问题，通过高质量长链思维数据进行监督微调。

推理强化学习阶段通过分组相对策略优化算法和语言一致性奖励，提升模型在数学、代码、科学等领域的推理能力。

该阶段增强模型在非推理任务上的通用性，并通过筛选高质量推理轨迹生成多样化数据。

全场景强化学习阶段旨在提升模型的安全性和实用性，确保在开放域问答和长文本理解中的稳健表现。

核心创新在于通过纯强化学习激励推理能力，结合冷启动和迭代优化，实现与顶尖闭源模型的性能匹敌。

🏷️

全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
微软 Build 2026 大会凸显对话式 AI 的新阶段
在微软Build开发者大会上，微软发布了MAI-Transcribe-1.5语音转文本模型和MAI-Voice-2文本转语音产品，提升了语音识别和合成语音...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
论独立游戏的起步立项方法论
在当下这个互联网时代做独立游戏，是幸运的，得益于各路大佬的经验分享，诸如引擎选择、外包渠道、素材获取，编程整合 […]
技嘉在COMPUTEX 2026展示多款生活美学主机
(全球TMT2026年6月5日讯)技嘉科技于COMPUTEX 2026展示多款生活美学主机，包含展现简约风格的 […]