小红花·文摘

DreamSmooth是一种奖励平滑方法，通过学习预测时间上平滑的奖励来提高基于模型的强化学习的性能。实证结果表明，DreamSmooth在长时间范围的稀疏奖励任务上表现出最先进的性能，并在常见的基准测试中也表现良好。