小红花·文摘

我们研究了非时序强化学习（RL）的问题，其中系统动态未知，并且 RL 代理需要从单个轨迹中学习，即没有重置。我们提出了 Nonepisodic Optimistic RL（NeoRL），这是一种基于乐观原则面对未知动态的方法。NeoRL...