逆强化学习(IRL)通过专家演示学习奖励函数,对理解和模仿人类行为很重要。本文介绍了高效的IRL方法,包括离线和在线设置,强调多项式采样和运行时间的效率。利用RLP和RLE算法,设计了近乎最优的IRL算法,并建立了样本复杂度的下界。研究表明,学习的奖励函数在目标MDP上具有良好的迁移能力。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: