机器之心 ·

Faster than GRPO by 8 Times on GSM8K! Xiamen University Proposes CPPO, Making Reinforcement Learning Lightning Fast

💡 原文英文，约300词，阅读约需2分钟。

📝

内容提要

厦门大学研究团队提出新算法CPPO（完成剪枝策略优化），旨在加速GRPO（组相对策略优化）训练。CPPO通过剪枝低优势的完成结果，减少计算量，提高训练效率。实验表明，CPPO在保持准确度的同时，训练速度比GRPO快8.32倍，具有良好的稳定性和收敛性，适合大规模推理模型训练。

🎯

❓

CPPO算法的主要目标是加速GRPO训练，通过剪枝低优势的完成结果来减少计算量，提高训练效率。

CPPO在保持准确度的同时，训练速度比GRPO快8.32倍，具有更好的稳定性和收敛性。

CPPO通过剪枝低优势的完成结果和引入动态完成结果分配策略，减少了训练所需的完成结果数量，从而提高训练效率。

CPPO在GSM8K基准上速度比GRPO快8.32倍，在MATH基准上快3.51倍，同时保持或提高了准确度。

CPPO根据完成结果的相对优势进行剪枝，仅保留绝对优势较高的完成结果来计算损失，从而减少训练所需的完成结果数量。

动态完成结果分配策略通过填充每个设备的处理管道，确保充分利用GPU资源，提高训练效率。

🏷️

我们在2026年5月发布的最新AI新闻
谷歌在2026年5月推出了多个AI相关产品，包括Gemini 3.5和Gemini Omni，旨在提升日常生活便利性。新应用Google Health和F...
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
MAHA希望将棉花打造成新的牛脂
美国农业部推出“伟大的美国棉花计划”，旨在推广本土棉花，支持农民和国内制造业。尽管消费者对天然纤维服装的兴趣上升，但棉花生产面临高成本和化学品使用问题，且...
深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...
你说我的新智能秤是‘为GLP-1用户设计的’是什么意思？
Withings推出的BodyFit智能秤专为GLP-1用户设计，旨在监测肌肉质量。GLP-1药物可能导致肌肉流失，因此需要关注蛋白质摄入和力量训练。尽管...
这家人工智能初创公司声称能够判断一个剧本是否会成为热门电影
AI初创公司Quilty声称通过剧本分析预测电影票房成功，但实际测试结果不佳，预测不准确。Quilty结合多种AI工具提供剧本分析和成功概率评分，旨在帮助...