变分课程增强学习用于无监督技能发现
原文中文,约400字,阅读约需1分钟。发表于: 。基于互信息的强化学习作为一种无需任务导向奖励函数的复杂技能自主检索方法已被提出,但由于训练技能的顺序会在很大程度上影响样本效率,对于学习复杂技能仍具有挑战性。本文提出了一种名为变分课程强化学习(VCRL)的方法,将变分增强视为内在奖励函数的目标条件强化学习中的课程学习,并基于信息理论提出了一种无监督技能发现的新方法,称为值不确定性变分课程(VUVC)。我们证明,在一定的正则条件下,与均匀课程...
本文提出了VCRL和VUVC两种方法,分别用于课程学习和无监督技能发现。通过复杂导航和机器人操作任务验证了该方法的有效性,并以零次设定下的真实世界机器人导航任务为例,证明了通过该方法发现的技能能够成功完成任务,并且将这些技能与全局规划器相结合可以进一步提高性能。