小红花·文摘

Faster than GRPO by 8 Times on GSM8K! Xiamen University Proposes CPPO, Making Reinforcement Learning Lightning Fast

机器之心 ·

本文提出了Completion Pruning Policy Optimization（CPPO），旨在加速基于组相对策略优化（GRPO）的推理模型训练。研究发现，尽管GRPO有效，但高昂的训练成本主要源于对多个完成的采样，且完成的相对优势会影响模型准确性。CPPO通过修剪低绝对优势的完成，显著减少了所需的梯度计算和更新数量，从而提升训练效率。

CPPO：加速基于组相对策略优化的推理模型训练

BriefGPT - AI 论文速递 ·