小红花·文摘

本文讨论了群体相对策略优化（GRPO）及其与策略优化（PO）的关系，重点在于GRPO的优势计算方法。GRPO通过不同的响应来估计优势，简化了传统的价值模型需求。研究表明，优化策略需关注样本长度和优势计算，以提高推理模型的性能。