基于模型的离线强化学习与反探索

本研究解决了模型基强化学习中对数据量不足和覆盖不全的问题。提出的 Morse Model-based offline RL (MoMo) 方法引入了反探索的理念，通过反探索奖励与策略约束相结合，优化价值评估并有效处理分布外状态。实验结果表明，MoMo 在多个 D4RL 数据集上的表现优于现有的模型基和无模型基的基线方法。

本研究提出了MoMo方法，解决了模型基强化学习中的数据不足和覆盖不全问题。实验结果表明，MoMo在多个数据集上的表现优于现有的基线方法。

MoMo Morse Model-based offline RL 基线方法数据不足覆盖不全