基于随机网络蒸馏的高效主动模仿学习

本研究针对复杂且目标不明确的任务，提出了主动模仿学习的新方法RND-DAgger，旨在减少专家介入的频率，从而降低对持续专家输入的需求。通过学习状态基础的分布外测量，该方法仅在必要时触发专家干预，实验证明RND-DAgger在3D视频游戏和机器人运动任务中超越了传统的模仿学习方法，显著减少了专家查询的次数。

本研究提出了一种新方法RND-DAgger，旨在减少专家介入频率。该方法通过状态基础的分布外测量，在3D游戏和机器人任务中优于传统模仿学习，显著降低了专家查询次数。

3D游戏 RND-DAgger 专家介入主动模仿学习机器人任务