DrQ-v2 是一种模型无关的强化学习算法,基于 off-policy actor-critic 方法,能够直接从像素学习,并在复杂的人形运动任务中表现出色。该算法通过建模返回的分布,显著提高了在 Atari 2600 游戏中的表现,优于许多 DQN 改进方案。同时,研究还提出了分布式深度确定策略梯度算法 D4PG,展示了在各种控制任务中的先进性能。
PPO是一种off policy的强化学习算法,通过转换策略分布中的采样数据来更新模型参数。PPO使用公式中的概率比值来决定是否更新模型参数,并使用clamp来裁切比值。关键词:PPO, off policy, 强化学习, 概率比值, clamp
完成下面两步后,将自动完成登录并继续当前操作。