SAMG：具有离线模型引导的状态-动作感知离线到在线强化学习

该研究针对传统强化学习中的离线到在线转变效率低下问题，提出了一种新的方法，即SAMG，通过冻结预训练的离线评估模型来生成状态-动作对的离线值，消除对大规模离线数据集的重新训练需求。研究表明，SAMG在D4RL基准测试中优于四种现有的O2O强化学习算法，展示了良好的最优性和较低的估计误差。

该研究提出了一种新方法SAMG，旨在提高传统强化学习中离线到在线转变的效率。通过冻结预训练的离线评估模型，SAMG生成状态-动作对的离线值，避免了对大规模离线数据集的重新训练。研究结果显示，SAMG在D4RL基准测试中优于四种现有算法，展现了良好的最优性和较低的估计误差。

D4RL SAMG 估计误差强化学习离线评估