小红花·文摘

本文研究了近端策略优化（PPO）中的优势估计不稳定性，提出了动态非线性缩放自适应调制优势估计方法AM-PPO，显著改善了奖励轨迹，促进了学习过程，减少了剪裁需求，具有广泛的应用潜力。