DrS: 针对多阶段任务学习可重复使用的密集奖励
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
我们提出了一种学习可重复使用稠密奖励的新方法,称为DrS。该方法通过任务的阶段结构从稀疏奖励和示范中学习高质量的稠密奖励,并在未知任务中复用。实验证明该方法提高了强化学习算法的性能和样本效率,有些任务的性能甚至与人工奖励相媲美。
🎯
关键要点
- 提出了一种新方法DrS,用于学习可重复使用的稠密奖励。
- 该方法通过任务的阶段结构,从稀疏奖励和示范中学习高质量的稠密奖励。
- DrS方法可以在未知任务中复用学习到的奖励,减少人工奖励设计的工作。
- 实验证明,DrS提高了强化学习算法的性能和样本效率。
- 在某些任务中,DrS的性能甚至与人工奖励相媲美。
🏷️
标签
➡️