小红花·文摘

该文介绍了一种基于模型的强化学习方法，通过生成带有预测奖励的虚拟轨迹来规划动作，以高样本效率地学习复杂行为。作者提出了一种奖励平滑方法 DreamSmooth，通过学习预测时间上平滑的奖励来提高性能。