小红花·文摘

本研究提出了一种相对自适应梯度下降（RAD）算法，以解决深度强化学习中的不稳定性问题。RAD通过保角哈密顿系统演化，显著降低了异常梯度的影响。实验结果表明，该算法在多个环境中优于九种基线优化器，尤其在Atari游戏中性能提升达155.1%。