本研究提出自适应组策略优化(AGPO),旨在提高现有组相对策略优化(GRPO)在强化学习中的稳定性和推理效率。AGPO通过修订优势估计和基于长度的奖励机制,减少零方差情况,鼓励模型避免过度思考。实验结果表明,该方法实现了更稳定的训练,并在推理中显著减少令牌使用,同时保持或提升性能。
完成下面两步后,将自动完成登录并继续当前操作。