我们研究了非时序强化学习(RL)的问题,其中系统动态未知,并且 RL 代理需要从单个轨迹中学习,即没有重置。我们提出了 Nonepisodic Optimistic RL(NeoRL),这是一种基于乐观原则面对未知动态的方法。NeoRL...
完成下面两步后,将自动完成登录并继续当前操作。