小红花·文摘

本研究探讨了深度强化学习中学习率和优化器的重要性，尤其是在非平稳目标函数下。提出了一种基于多臂赌博机算法的动态学习率方法（LRRL），可以根据训练表现调整学习率，从而提升算法性能。