小红花·文摘

本文介绍了残差策略学习（RPL）方法，用于改善非可微策略的深度强化学习。研究发现，RPL在复杂机器人操作任务中相比从头开始的强化学习有显著改进。RPL通过结合学习与控制算法，能够执行长时程、稀疏奖励任务，并在改善初始控制器方面表现出一致且显著的优势。