小红花·文摘

DrQ-v2 是一种模型无关的强化学习算法，基于 off-policy actor-critic 方法，能够直接从像素学习，并在复杂的人形运动任务中表现出色。该算法通过建模返回的分布，显著提高了在 Atari 2600 游戏中的表现，优于许多 DQN 改进方案。同时，研究还提出了分布式深度确定策略梯度算法 D4PG，展示了在各种控制任务中的先进性能。