厦门大学研究团队提出新算法CPPO(完成剪枝策略优化),旨在加速GRPO(组相对策略优化)训练。CPPO通过剪枝低优势的完成结果,减少计算量,提高训练效率。实验表明,CPPO在保持准确度的同时,训练速度比GRPO快8.32倍,具有良好的稳定性和收敛性,适合大规模推理模型训练。
本文提出了Completion Pruning Policy Optimization(CPPO),旨在加速基于组相对策略优化(GRPO)的推理模型训练。研究发现,尽管GRPO有效,但高昂的训练成本主要源于对多个完成的采样,且完成的相对优势会影响模型准确性。CPPO通过修剪低绝对优势的完成,显著减少了所需的梯度计算和更新数量,从而提升训练效率。
本文介绍了一种新型的约束强化学习方法CPPO,将其视为概率推理问题,通过一阶更新优化策略,解决了传统方法的复杂性和低效性。同时,研究提出了多任务强化学习和基于原始-对偶算法的策略,旨在统一现有技术并提供多种策略约束的工具箱。
完成下面两步后,将自动完成登录并继续当前操作。