本文介绍了残差策略学习(RPL)方法,用于改善非可微策略的深度强化学习。研究发现,RPL在复杂机器人操作任务中相比从头开始的强化学习有显著改进。RPL通过结合学习与控制算法,能够执行长时程、稀疏奖励任务,并在改善初始控制器方面表现出一致且显著的优势。
完成下面两步后,将自动完成登录并继续当前操作。