基于模型的离线强化学习与反探索
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了模型基强化学习中对数据量不足和覆盖不全的问题。提出的 Morse Model-based offline RL (MoMo) 方法引入了反探索的理念,通过反探索奖励与策略约束相结合,优化价值评估并有效处理分布外状态。实验结果表明,MoMo 在多个 D4RL 数据集上的表现优于现有的模型基和无模型基的基线方法。
本研究提出了MoMo方法,解决了模型基强化学习中的数据不足和覆盖不全问题。实验结果表明,MoMo在多个数据集上的表现优于现有的基线方法。