本研究提出了一种基于多臂赌博机算法的动态学习率方法(LRRL),旨在优化深度强化学习中的学习率选择。该方法根据代理的训练表现动态调整学习率,显著提升了深度强化学习算法的性能,尤其在非平稳目标函数下表现突出。
完成下面两步后,将自动完成登录并继续当前操作。