本文探讨了一种基于模型的离线强化学习方法,通过生成虚拟轨迹和期望回归提高样本效率,解决生成数据的偏差问题。研究表明,该方法在长时程任务中表现优越,并优化真实策略的价值下限。作者提出的新算法COMBO和RFQI在离线强化学习基准测试中展现了持续改进和卓越性能。
该文介绍了一种基于模型的强化学习方法,通过生成带有预测奖励的虚拟轨迹来规划动作,以高样本效率地学习复杂行为。作者提出了一种奖励平滑方法 DreamSmooth,通过学习预测时间上平滑的奖励来提高性能。
完成下面两步后,将自动完成登录并继续当前操作。