我们提出了一种学习可重复使用稠密奖励的新方法,称为DrS。该方法通过任务的阶段结构从稀疏奖励和示范中学习高质量的稠密奖励,并在未知任务中复用。实验证明该方法提高了强化学习算法的性能和样本效率,有些任务的性能甚至与人工奖励相媲美。
完成下面两步后,将自动完成登录并继续当前操作。