在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电 厦门大学研究团队提出新算法CPPO(完成剪枝策略优化),旨在加速GRPO(组相对策略优化)训练。CPPO通过剪枝低优势的完成结果,减少计算量,提高训练效率。实验表明,CPPO在保持准确度的同时,训练速度比GRPO快8.32倍,具有良好的稳定性和收敛性,适合大规模推理模型训练。 CPPO GRPO 剪枝 强化学习 模型训练 训练效率