DrS: 针对多阶段任务学习可重复使用的密集奖励
原文中文,约200字,阅读约需1分钟。发表于: 。我们提出了一种学习可重复使用稠密奖励的新方法,称为 DrS,能够通过利用任务的阶段结构从稀疏奖励和示范中学习高质量的稠密奖励,并在未知任务中复用,从而减少了人工奖励设计的工作。实验证明我们学到的奖励在未知任务中可以复用,提高了强化学习算法的性能和样本效率,有些任务的性能甚至与人工奖励相媲美。
我们提出了一种学习可重复使用稠密奖励的新方法,称为DrS。该方法通过任务的阶段结构从稀疏奖励和示范中学习高质量的稠密奖励,并在未知任务中复用。实验证明该方法提高了强化学习算法的性能和样本效率,有些任务的性能甚至与人工奖励相媲美。