使用补偿奖励的离线强化学习

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本论文介绍了OfflineMania,一种用于ORL研究的新型环境,模拟赛车游戏,提供多种数据集评估ORL性能,并建立了基线方法用于算法开发和评估。

🎯

关键要点

  • 论文介绍了 OfflineMania,一种用于 ORL 研究的新型环境。
  • OfflineMania 灵感来自于 TrackMania 系列,采用 Unity 3D 游戏引擎开发。
  • 该环境模拟单人赛车游戏,通过最佳导航完成赛道。
  • 提供多种数据集以评估 ORL 性能。
  • 建立了一系列在线 RL、ORL 和混合离线到在线 RL 方法的基线,用于算法开发和评估。
➡️

继续阅读