小红花·文摘

本文介绍了一种带有均匀大规模经验回放机制的演员-评论家增强学习算法，解决了经验回放和离线策略学习的挑战。通过混合经验回放采样和在线策略采样的新方案，处理了V-trace不稳定的数据分布，并在Atari游戏中证明了该设置的数据效率的优势。