小红花·文摘

本研究提出了一种基于多臂赌博机算法的动态学习率方法（LRRL），旨在优化深度强化学习中的学习率选择。该方法根据代理的训练表现动态调整学习率，显著提升了深度强化学习算法的性能，尤其在非平稳目标函数下表现突出。