该文介绍了一种基于不可微分计划器的逆强化学习方法,用于从专家提供的演示中学习奖励函数。该方法相比于采用特定假设的数学模型,能够得到更好的奖励推断,并保持在数据驱动方法和已知人类偏差之间的平衡。
完成下面两步后,将自动完成登录并继续当前操作。