NeoRL:非情节强化学习的高效探索
发表于: 。我们研究了非时序强化学习(RL)的问题,其中系统动态未知,并且 RL 代理需要从单个轨迹中学习,即没有重置。我们提出了 Nonepisodic Optimistic RL(NeoRL),这是一种基于乐观原则面对未知动态的方法。NeoRL...
我们研究了非时序强化学习(RL)的问题,其中系统动态未知,并且 RL 代理需要从单个轨迹中学习,即没有重置。我们提出了 Nonepisodic Optimistic RL(NeoRL),这是一种基于乐观原则面对未知动态的方法。NeoRL...