DreamSmooth: 通过奖励平滑改进基于模型的强化学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了一种基于模型的强化学习方法,通过生成带有预测奖励的虚拟轨迹来规划动作,以高样本效率地学习复杂行为。作者提出了一种奖励平滑方法 DreamSmooth,通过学习预测时间上平滑的奖励来提高性能。
🎯
关键要点
- 该文介绍了一种基于模型的强化学习方法。
- 通过生成带有预测奖励的虚拟轨迹来规划动作。
- 该方法能够高样本效率地学习复杂行为。
- 提出了一种奖励平滑方法 DreamSmooth。
- DreamSmooth 通过学习预测时间上平滑的奖励来提高性能。
- 实证结果表明,DreamSmooth 在长时间范围的稀疏奖励任务上表现优异。
- 在常见的基准测试中,DreamSmooth 也未损失性能。
➡️