使用补偿奖励的离线强化学习
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本论文介绍了OfflineMania,一种用于ORL研究的新型环境,模拟赛车游戏,提供多种数据集评估ORL性能,并建立了基线方法用于算法开发和评估。
🎯
关键要点
- 论文介绍了 OfflineMania,一种用于 ORL 研究的新型环境。
- OfflineMania 灵感来自于 TrackMania 系列,采用 Unity 3D 游戏引擎开发。
- 该环境模拟单人赛车游戏,通过最佳导航完成赛道。
- 提供多种数据集以评估 ORL 性能。
- 建立了一系列在线 RL、ORL 和混合离线到在线 RL 方法的基线,用于算法开发和评估。
🏷️
标签
➡️