厦门大学研究团队提出新算法CPPO(完成剪枝策略优化),旨在加速GRPO(组相对策略优化)训练。CPPO通过剪枝低优势的完成结果,减少计算量,提高训练效率。实验表明,CPPO在保持准确度的同时,训练速度比GRPO快8.32倍,具有良好的稳定性和收敛性,适合大规模推理模型训练。
本文提出了Completion Pruning Policy Optimization(CPPO),旨在加速基于组相对策略优化(GRPO)的推理模型训练。研究发现,尽管GRPO有效,但高昂的训练成本主要源于对多个完成的采样,且完成的相对优势会影响模型准确性。CPPO通过修剪低绝对优势的完成,显著减少了所需的梯度计算和更新数量,从而提升训练效率。
完成下面两步后,将自动完成登录并继续当前操作。