小红花·文摘

该文介绍了一种新的逆向强化学习方法，通过同时估计专家的奖励函数和对环境动态的主观模型，开发出高维环境中估计专家奖励和主观动态的高效算法。研究发现，当先验认为专家对环境有高度准确的模型时，估计出的策略表现出了稳健的性能。在MuJoCo环境中验证了该方法的有效性，优于最先进的方法。