本文研究了学习策略中监督者变化的问题,提出了一种从收敛监督者进行模仿学习的方法。作者将该框架与DPI强化学习算法结合,在连续控制任务中表现优于深度强化学习基线,并实现了策略评估速度提升至80倍。
完成下面两步后,将自动完成登录并继续当前操作。