本研究提出了一种新方法RND-DAgger,旨在减少专家介入频率,降低对持续专家输入的需求。该方法通过学习状态基础的分布外测量,仅在必要时触发专家干预。实验证明其在3D视频游戏和机器人运动任务中优于传统模仿学习,显著减少专家查询次数。
完成下面两步后,将自动完成登录并继续当前操作。