小红花·文摘

本文介绍了Q-Prop，一种结合策略梯度与离线强化学习的深度强化学习方法，具有高效和稳定的特点。在MuJoCo环境中表现优于现有算法。研究探讨了多种策略梯度算法及其在连续控制任务中的应用，并提出了改进算法以解决收敛性和性能问题。