符合性互动模仿学习:处理专家转变与间歇性反馈
发表于: 。本研究解决了互动模仿学习中的专家转变和间歇性反馈问题。提出了一种新的不确定性量化算法——间歇性分位数跟踪(IQT),结合在线符合预测,实时调整机器人的不确定性。此外,开发的ConformalDAgger方法能够在专家策略变化时有效检测不确定性,促进机器人更快速地学习新行为。
本研究解决了互动模仿学习中的专家转变和间歇性反馈问题。提出了一种新的不确定性量化算法——间歇性分位数跟踪(IQT),结合在线符合预测,实时调整机器人的不确定性。此外,开发的ConformalDAgger方法能够在专家策略变化时有效检测不确定性,促进机器人更快速地学习新行为。