训练一次,得到一个家庭:离线到在线强化学习的状态自适应平衡
原文中文,约500字,阅读约需2分钟。发表于: 。离线到在线强化学习 (RL) 是一种训练范式,它将在预先收集的数据集上进行预训练,并在在线环境中进行微调。然而,在线微调的引入可能加剧已知的分布偏移问题。现有的解决方案通过对离线和在线学习中的策略改进目标施加策略约束来解决这个问题。它们通常提倡在不同数据集之间采用单一的平衡。鉴于不同状态下数据质量的显著变化,这种一刀切的方式可能无法充分利用每个收集样本。为此,我们引入了家族离线到在线 RL...
介绍了家族离线到在线RL框架,可自适应平衡策略改进和约束强度,提高强化学习性能。使用通用模型训练一族具有不同改进/约束强度的策略,并使用平衡模型为每个状态选择适当的策略。实验结果表明,该框架相对于现有方法具有显著的改进,并在D4RL基准上实现了最先进的性能。