基于原始 Wasserstein 状态占有匹配的离线观察仿真

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该论文提出了一种新颖的离线模仿学习算法SMODICE,能够应用于三种离线模仿学习设置,通过Fenchel对偶和解析解在表格MDPs中优化了SMODICE目标。作者在小环境和高维度的离线基准环境上进行了广泛评估,表明SMODICE对所有三种问题设置都有效,且明显优于之前的技术水平。

🎯

关键要点

  • 提出了一种新颖的离线模仿学习算法SMODICE。
  • SMODICE是一种基于回归的算法,通过状态占据匹配得到。
  • 能够有效应用于三种离线模仿学习设置:从观测模仿、动态或形态不匹配的模仿、基于示例的强化学习。
  • 通过Fenchel对偶和解析解在表格MDPs中优化了SMODICE目标。
  • 在小环境和高维度的离线基准环境上进行了广泛评估。
  • SMODICE对所有三种问题设置都有效,且明显优于之前的技术水平。
➡️

继续阅读