该文介绍了一种新的逆向强化学习方法,通过同时估计专家的奖励函数和对环境动态的主观模型,开发出高维环境中估计专家奖励和主观动态的高效算法。研究发现,当先验认为专家对环境有高度准确的模型时,估计出的策略表现出了稳健的性能。在MuJoCo环境中验证了该方法的有效性,优于最先进的方法。
完成下面两步后,将自动完成登录并继续当前操作。