基于近似采样的强化学习更高效的随机探索
原文中文,约400字,阅读约需1分钟。发表于: 。这篇论文提出了一个算法框架,结合了不同的近似抽样方法和最近提出的 Feel-Good Thompson Sampling (FGTS) 方法,在线性 MDPs 中应用时,我们的遗憾分析得到了关于维度的最好依赖关系,超过了现有的随机算法。在一些需要进行深度探索的任务中,我们提出的将 FGTS 和近似抽样相结合的算法与其他强基准相比表现显著地更好。在 Atari 57...
该论文提出了一个算法框架,结合了不同的近似抽样方法和Feel-Good Thompson Sampling (FGTS)方法。在线性MDPs中应用时,该算法的遗憾分析得到了关于维度的最佳依赖关系,超过了现有的随机算法。在需要深度探索的任务中,该算法表现更好。在Atari 57套件的几个具有挑战性的游戏中,该算法在性能上要么优于,要么与深度RL文献中的其他强基准相当。