在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

厦门大学研究团队提出新算法CPPO（完成剪枝策略优化），旨在加速GRPO（组相对策略优化）训练。CPPO通过剪枝低优势的完成结果，减少计算量，提高训练效率。实验表明，CPPO在保持准确度的同时，训练速度比GRPO快8.32倍，具有良好的稳定性和收敛性，适合大规模推理模型训练。

CPPO GRPO 剪枝强化学习模型训练训练效率