小红花·文摘

本研究提出了一种新方法RND-DAgger，旨在减少专家介入频率，降低对持续专家输入的需求。该方法通过学习状态基础的分布外测量，仅在必要时触发专家干预。实验证明其在3D视频游戏和机器人运动任务中优于传统模仿学习，显著减少专家查询次数。