具有多种规划视野的逆强化学习

本文研究了一个逆强化学习(IRL)问题，其中专家在共享奖励函数下以不同未知的规划视野进行规划。我们开发了能够学习具有特定折扣因子的多智能体全局奖励函数的算法，成功重构专家策略，揭示了奖励函数和折扣因子的可行解空间，此研究在多个领域展示了获得的奖励函数的通用性。

逆强化学习（IRL）通过专家演示学习奖励函数，对理解和模仿人类行为很重要。本文介绍了高效的IRL方法，包括离线和在线设置，强调多项式采样和运行时间的效率。利用RLP和RLE算法，设计了近乎最优的IRL算法，并建立了样本复杂度的下界。研究表明，学习的奖励函数在目标MDP上具有良好的迁移能力。

RLE算法 RLP算法奖励函数强化学习迁移能力逆强化学习