本研究提出了一种相对自适应梯度下降(RAD)算法,以解决深度强化学习中的不稳定性问题。RAD通过保角哈密顿系统演化,显著降低了异常梯度的影响。实验结果表明,该算法在多个环境中优于九种基线优化器,尤其在Atari游戏中性能提升达155.1%。
完成下面两步后,将自动完成登录并继续当前操作。