Adaptive Group Policy Optimization: Achieving Stable Training and Efficient Reasoning
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出自适应组策略优化(AGPO),旨在提高现有组相对策略优化(GRPO)在强化学习中的稳定性和推理效率。AGPO通过修订优势估计和基于长度的奖励机制,减少零方差情况,鼓励模型避免过度思考。实验结果表明,该方法实现了更稳定的训练,并在推理中显著减少令牌使用,同时保持或提升性能。
🎯
关键要点
- 本研究提出自适应组策略优化(AGPO),旨在提高现有组相对策略优化(GRPO)的稳定性和推理效率。
- AGPO通过修订优势估计方法减少零方差情况,并引入基于长度的奖励机制,鼓励模型避免过度思考。
- 实验结果表明,AGPO实现了更稳定的训练,并在推理中显著减少令牌使用,同时保持或提升性能。
➡️