小红花·文摘

该研究提出了HG-DAgger算法，适用于交互式人机模仿学习。该算法训练初学者策略，学习基于模型不确定性的风险度量的安全阈值，以预测状态空间中不同区域的初学者性能。在自动驾驶任务中，该算法表现更好。