基于随机网络蒸馏的高效主动模仿学习

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本研究提出了一种新方法RND-DAgger,旨在减少专家介入频率。该方法通过状态基础的分布外测量,在3D游戏和机器人任务中优于传统模仿学习,显著降低了专家查询次数。

原文中文,约300字,阅读约需1分钟。
阅读原文