使用补偿奖励的离线强化学习
原文中文,约200字,阅读约需1分钟。发表于: 。使用仅有 1% 的奖励标注过的状态转换样本,我们提出了一种简单而有效的奖励模型,可以对其余 99% 的转换赋予奖励,从而实现离线强化学习技术的应用。
本论文介绍了OfflineMania,一种用于ORL研究的新型环境,模拟赛车游戏,提供多种数据集评估ORL性能,并建立了基线方法用于算法开发和评估。
使用仅有 1% 的奖励标注过的状态转换样本,我们提出了一种简单而有效的奖励模型,可以对其余 99% 的转换赋予奖励,从而实现离线强化学习技术的应用。
本论文介绍了OfflineMania,一种用于ORL研究的新型环境,模拟赛车游戏,提供多种数据集评估ORL性能,并建立了基线方法用于算法开发和评估。