强化学习中的退化策略：限制策略优化方法中的替代目标方差

本文提出了一种适用于主流政策优化算法的强化学习框架，通过引入一种称为 dropout 技术的方法，避免了由于重要性采样而导致的代理目标方差的过度增加，并验证了在 Atari 2600 环境中，D-PPO 相对于 PPO 算法在性能上取得了显著的改进，有效限制了训练过程中代理目标方差的过度增加。

本文提出了一种适用于主流政策优化算法的强化学习框架，通过引入 dropout 技术，避免了代理目标方差过度增加，并在 Atari 2600 环境中验证了 D-PPO 相对于 PPO 算法在性能上取得了显著的改进。

Atari 2600环境 D-PPO算法 PPO算法 dropout技术强化学习