该研究提出了HG-DAgger算法,适用于交互式人机模仿学习。该算法训练初学者策略,学习基于模型不确定性的风险度量的安全阈值,以预测状态空间中不同区域的初学者性能。在自动驾驶任务中,该算法表现更好。
完成下面两步后,将自动完成登录并继续当前操作。