本文介绍了一种带有均匀大规模经验回放机制的演员-评论家增强学习算法,解决了经验回放和离线策略学习的挑战。通过混合经验回放采样和在线策略采样的新方案,处理了V-trace不稳定的数据分布,并在Atari游戏中证明了该设置的数据效率的优势。
完成下面两步后,将自动完成登录并继续当前操作。