通过对DeepMind控制套件中任务的分析,发现高TD错误是深度强化学习算法性能的主要问题。利用正则化技术找到验证TD误差的最低点是提高深度RL效率的重要原则。在线模型选择方法在基于状态的DMC和Gym任务中也是有效的。
完成下面两步后,将自动完成登录并继续当前操作。