离线强化学习和模仿学习的引导式数据增强
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该研究提出了HG-DAgger算法,适用于交互式人机模仿学习。该算法训练初学者策略,学习基于模型不确定性的风险度量的安全阈值,以预测状态空间中不同区域的初学者性能。在自动驾驶任务中,该算法表现更好。
🎯
关键要点
- 提出了HG-DAgger算法,适用于交互式人机模仿学习。
- HG-DAgger算法训练初学者策略,学习基于模型不确定性的风险度量的安全阈值。
- 该算法能够预测状态空间中不同区域的初学者性能。
- 在自动驾驶任务中,HG-DAgger算法表现优于DAgger和行为克隆。
➡️