基于随机网络蒸馏的高效主动模仿学习
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对复杂且目标不明确的任务,提出了主动模仿学习的新方法RND-DAgger,旨在减少专家介入的频率,从而降低对持续专家输入的需求。通过学习状态基础的分布外测量,该方法仅在必要时触发专家干预,实验证明RND-DAgger在3D视频游戏和机器人运动任务中超越了传统的模仿学习方法,显著减少了专家查询的次数。
本研究提出了一种新方法RND-DAgger,旨在减少专家介入频率。该方法通过状态基础的分布外测量,在3D游戏和机器人任务中优于传统模仿学习,显著降低了专家查询次数。