本文介绍了一种基于分布式强化学习的方法,通过分位回归逼近状态-动作回报分布,在57个Atari 2600游戏中表现优越。该算法显著优于传统DQN改进方案,并探讨了风险敏感性政策的效果。此外,研究提出了新算法QPO和D4PG,展示了在复杂控制任务中的先进性能。
完成下面两步后,将自动完成登录并继续当前操作。