本研究探讨了深度强化学习中学习率和优化器的重要性,尤其是在非平稳目标函数下。提出了一种基于多臂赌博机算法的动态学习率方法(LRRL),可以根据训练表现调整学习率,从而提升算法性能。
完成下面两步后,将自动完成登录并继续当前操作。