小红花·文摘

通过SEABO方法，可以从专家数据和未标记数据中获取奖励函数。SEABO在只有一个专家轨迹的情况下，能够与真实奖励的离线强化学习算法相竞争，并在许多任务中优于先前的奖励学习和离线模仿学习方法。