小红花·文摘

本文研究了学习策略中监督者变化的问题，提出了一种从收敛监督者进行模仿学习的方法。作者将该框架与DPI强化学习算法结合，在连续控制任务中表现优于深度强化学习基线，并实现了策略评估速度提升至80倍。