降低深度强化学习模型中的不良行为
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
通过对DeepMind控制套件中任务的分析,发现高TD错误是深度强化学习算法性能的主要问题。利用正则化技术找到验证TD误差的最低点是提高深度RL效率的重要原则。在线模型选择方法在基于状态的DMC和Gym任务中也是有效的。
🎯
关键要点
- 通过对DeepMind控制套件中的任务进行分析,发现高TD错误是深度强化学习算法性能的主要问题。
- 利用正则化技术找到验证TD误差的最低点是提高深度RL效率的重要原则。
- 在线模型选择方法在基于状态的DMC和Gym任务中也是有效的。
➡️