通过指导学习发现技能
原文中文,约500字,阅读约需1分钟。发表于: 。在无监督技能发现领域,有限的探索是一个主要挑战,而探索受到技能偏离初始轨迹时的重大惩罚的限制。为了增强探索能力,最近的方法使用辅助奖励来最大化状态的认识不确定性或熵。然而,我们发现这些奖励的有效性随着环境复杂性的增加而下降。因此,我们提出了一种新的无监督技能发现算法,即带有引导的技能发现(DISCO-DANCE),它 (1) 选择具有达到未探索状态潜力最高的引导技能,(2)...
该文介绍了一种新的无监督技能发现算法DISCO-DANCE,它通过选择具有未探索状态潜力最高的引导技能,引导其他技能跟随引导技能,然后引导的技能在未探索的状态下分散以最大化它们的可区分性,以增强探索能力。