小红花·文摘

本研究提出自适应组策略优化（AGPO），旨在提高现有组相对策略优化（GRPO）在强化学习中的稳定性和推理效率。AGPO通过修订优势估计和基于长度的奖励机制，减少零方差情况，鼓励模型避免过度思考。实验结果表明，该方法实现了更稳定的训练，并在推理中显著减少令牌使用，同时保持或提升性能。