小红花·文摘

本文探讨了一种基于模型的离线强化学习方法，通过生成虚拟轨迹和期望回归提高样本效率，解决生成数据的偏差问题。研究表明，该方法在长时程任务中表现优越，并优化真实策略的价值下限。作者提出的新算法COMBO和RFQI在离线强化学习基准测试中展现了持续改进和卓越性能。

BriefGPT - AI 论文速递 ·

该文介绍了一种基于模型的强化学习方法，通过生成带有预测奖励的虚拟轨迹来规划动作，以高样本效率地学习复杂行为。作者提出了一种奖励平滑方法 DreamSmooth，通过学习预测时间上平滑的奖励来提高性能。

BriefGPT - AI 论文速递 ·