本文介绍了Q-Prop,一种结合策略梯度与离线强化学习的深度强化学习方法,具有高效和稳定的特点。在MuJoCo环境中表现优于现有算法。研究探讨了多种策略梯度算法及其在连续控制任务中的应用,并提出了改进算法以解决收敛性和性能问题。
完成下面两步后,将自动完成登录并继续当前操作。