本文研究使用深度神经网络解决逼近真实世界复杂度的强化学习问题。实验结果表明,逐渐增加折扣因子值可以显著降低 DQN 学习步骤的数量。同时,结合变动的学习率使用,优于原始 DQN。在学习过程中可能陷入局部最优解的可能性,与探索 / 利用困境相关。
完成下面两步后,将自动完成登录并继续当前操作。