Josherich的博客 ·

GRPO的新变体及其实现秘密

💡 原文英文，约6000词，阅读约需22分钟。

📝

内容提要

本文讨论了群体相对策略优化（GRPO）及其与策略优化（PO）的关系，重点在于GRPO的优势计算方法。GRPO通过不同的响应来估计优势，简化了传统的价值模型需求。研究表明，优化策略需关注样本长度和优势计算，以提高推理模型的性能。

🎯

❓

群体相对策略优化（GRPO）是策略优化（PO）的变体，改变了优势计算的方法，直接使用多个答案来估计优势，消除了对价值模型的需求。

GRPO通过使用不同的响应来估计优势，避免了传统价值模型的复杂性，直接从多个答案中获取优势估计。

在优化策略时，GRPO需要关注样本长度和优势计算，以提高推理模型的性能。

优势函数量化了在特定状态下采取某个动作的相对收益，表示该动作的价值与环境中被低估的基础价值之间的差异。

GRPO的标准差奖励机制可能会削弱学习信号，影响模型的学习效果，且不同的损失计算方法可能导致模型学习动态的差异。

去除某些归一化项可能有助于改善GRPO的数学表现，避免对短答案的偏见，促进模型更好地学习。

🏷️

How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
MAHA wants to make cotton the new beef tallow
In between beef tallow fries, raw milk, and vaccine denialism, Make America H...
What do you mean my new smart scale is ‘built for GLP-1 users’?
This is Optimizer, a weekly newsletter sent from Verge senior reviewer Victor...
This AI startup says it can tell if a script will make a hit film
When Quilty hit the industry trades earlier this year, the AI startup promise...
为什么Zig还没有1.0版本（尚未）
Zig编程语言尚未发布1.0版本，开发团队优先确保基础稳定性，避免外部压力，专注于长期设计。尽管缺乏1.0版本可能影响采用率，但团队更重视设计的持久性和简...
为什么特朗普手机不在美国制造？
特朗普手机T1仅在美国组装，实际生产在海外。由于美国缺乏制造基础设施且成本高昂，完全在美国制造手机几乎不可能。目前仍依赖于中国等国家的组件。