本研究提出了一种新颖的强化学习方法——序列组衰减奖励策略优化(S-GRPO),旨在解决推理模型中的冗余问题。该方法通过选择多个时间点判断推理步骤的充分性,实现早期退出,从而缩短序列长度并提高准确性。
完成下面两步后,将自动完成登录并继续当前操作。