逐水寻源 ·

RL 后训练进化论：从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

💡 原文中文，约7800字，阅读约需19分钟。

📝

内容提要

DeepSeek-R1展示了强化学习（RLHF）在大模型推理中的重要性，挑战了传统观念。通过去除Critic和采用组内统计方法，提升了训练效率，推动了RL后训练的变革，未来将向自我验证循环发展。

🎯

❓

DeepSeek-R1证明了强化学习是解锁大模型深度推理能力的关键，而不仅仅是对SFT阶段能力的微调。

GRPO算法通过去除Critic模型，利用组内统计方法来估计优势，从而显著降低显存占用，提高训练效率。

GSPO算法解决了GRPO在超大规模模型训练中的稳定性问题，通过序列级重要性采样来提高训练的稳定性。

DAPO算法关注样本效率和策略多样性，提出了非对称截断和动态采样的改进，以提高训练效率。

DeepSeekMath-V2引入了生成者与验证者的博弈，推动了RL后训练的自我验证循环发展。

未来的训练架构将演变为自我验证循环，模型将成为自己的审查者，通过生成者和验证者的互动提升能力。

🏷️

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”
PRISM团队的研究表明，监督微调（SFT）并未促进强化学习（RL），反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程，强调在多模态...
LLM 训练与推理的基本理解
本文探讨了大型语言模型（LLM）的训练与推理过程，重点介绍了向量点积、Softmax、LayerNorm、Token化、BPE编码、位置嵌入、自注意力机制...
改版的Siri将 reportedly 提供自动删除聊天记录的功能
Apple is hoping that its record on privacy can be the differentiator on the A...
2026年5月17日Python周刊摘要
This week in Python, popular topics included a PyPI supply-chain compromise i...
我们在亚太地区推出谷歌DeepMind加速器项目，以应对环境风险。
The Asia-Pacific region is a global engine for economic growth, but it's ...
亚利桑那大学学生在毕业典礼上对埃里克·施密特的人工智能宣传表示嘘声
Former Google CEO Eric Schmidt delivered the commencement address at the Univ...