本文研究了近端策略优化(PPO)中的优势估计不稳定性,提出了动态非线性缩放自适应调制优势估计方法AM-PPO,显著改善了奖励轨迹,促进了学习过程,减少了剪裁需求,具有广泛的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。