小红花·文摘

本文研究了近端策略优化（PPO）中的优势估计不稳定性，提出了动态非线性缩放自适应调制优势估计方法AM-PPO，显著改善了奖励轨迹，促进了学习过程，减少了剪裁需求，具有广泛的应用潜力。

BriefGPT - AI 论文速递 ·

本研究提出自适应组策略优化（AGPO），旨在提高现有组相对策略优化（GRPO）在强化学习中的稳定性和推理效率。AGPO通过修订优势估计和基于长度的奖励机制，减少零方差情况，鼓励模型避免过度思考。实验结果表明，该方法实现了更稳定的训练，并在推理中显著减少令牌使用，同时保持或提升性能。

BriefGPT - AI 论文速递 ·

本研究提出HEPPO，一种基于FPGA的加速器，优化近端策略优化中的广义优势估计。实验结果表明，训练速度提高30%，内存使用减少4倍，具有广泛的应用潜力。

BriefGPT - AI 论文速递 ·