小红花·文摘

该文介绍了一种基于不可微分计划器的逆强化学习方法，用于从专家提供的演示中学习奖励函数。该方法相比于采用特定假设的数学模型，能够得到更好的奖励推断，并保持在数据驱动方法和已知人类偏差之间的平衡。