CPPO:加速基于组相对策略优化的推理模型训练
📝
内容提要
本文提出了Completion Pruning Policy Optimization(CPPO),旨在加速基于组相对策略优化(GRPO)的推理模型训练。研究发现,尽管GRPO有效,但高昂的训练成本主要源于对多个完成的采样,且完成的相对优势会影响模型准确性。CPPO通过修剪低绝对优势的完成,显著减少了所需的梯度计算和更新数量,从而提升训练效率。
🏷️
标签
➡️