超越均匀采样:利用不平衡数据集的离线强化学习
原文中文,约400字,阅读约需1分钟。发表于: 。离线策略学习旨在利用现有的轨迹数据集来学习决策策略,而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块,从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明,在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。
该文介绍了一种离线强化学习方法,利用先前经验学习政策,解决了使用行为克隆的限制。作者提出了一种新方法,将状态重构特征学习纳入扩散策略中,以解决分布外泛化问题。作者在二维多模态上下文强化学习环境和 D4RL 基准任务上评估了该模型的性能,实现了最先进的结果。