DreamSmooth: 通过奖励平滑改进基于模型的强化学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了一种基于模型的强化学习方法,通过生成带有预测奖励的虚拟轨迹来规划动作,以高样本效率地学习复杂行为。作者提出了一种奖励平滑方法 DreamSmooth,通过学习预测时间上平滑的奖励来提高性能。

🎯

关键要点

  • 该文介绍了一种基于模型的强化学习方法。
  • 通过生成带有预测奖励的虚拟轨迹来规划动作。
  • 该方法能够高样本效率地学习复杂行为。
  • 提出了一种奖励平滑方法 DreamSmooth。
  • DreamSmooth 通过学习预测时间上平滑的奖励来提高性能。
  • 实证结果表明,DreamSmooth 在长时间范围的稀疏奖励任务上表现优异。
  • 在常见的基准测试中,DreamSmooth 也未损失性能。
➡️

继续阅读