该文介绍了一种基于模型的强化学习方法,通过生成带有预测奖励的虚拟轨迹来规划动作,以高样本效率地学习复杂行为。作者提出了一种奖励平滑方法 DreamSmooth,通过学习预测时间上平滑的奖励来提高性能。
完成下面两步后,将自动完成登录并继续当前操作。