小红花·文摘

本文介绍了一种基于分布式强化学习的方法，通过分位回归逼近状态-动作回报分布，在57个Atari 2600游戏中表现优越。该算法显著优于传统DQN改进方案，并探讨了风险敏感性政策的效果。此外，研究提出了新算法QPO和D4PG，展示了在复杂控制任务中的先进性能。