SEABO: 离线模仿学习的简单基于搜索的方法

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

通过SEABO方法,可以从专家数据和未标记数据中获取奖励函数。SEABO在只有一个专家轨迹的情况下,能够与真实奖励的离线强化学习算法相竞争,并在许多任务中优于先前的奖励学习和离线模仿学习方法。

🎯

关键要点

  • SEABO方法通过专家数据和未标记数据获取奖励函数。
  • SEABO在只有一个专家轨迹的情况下,能够与真实奖励的离线强化学习算法竞争。
  • SEABO在许多任务中优于先前的奖励学习和离线模仿学习方法。
➡️

继续阅读