基于近似采样的强化学习更高效的随机探索

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该论文提出了一个算法框架,结合了不同的近似抽样方法和Feel-Good Thompson Sampling (FGTS)方法。在线性MDPs中应用时,该算法的遗憾分析得到了关于维度的最佳依赖关系,超过了现有的随机算法。在需要深度探索的任务中,该算法表现更好。在Atari 57套件的几个具有挑战性的游戏中,该算法在性能上要么优于,要么与深度RL文献中的其他强基准相当。

🎯

关键要点

  • 该论文提出了一个算法框架,结合了不同的近似抽样方法和Feel-Good Thompson Sampling (FGTS)方法。

  • 在应用于线性MDPs时,该算法的遗憾分析得到了关于维度的最佳依赖关系,超过了现有的随机算法。

  • 该算法在需要深度探索的任务中表现更好。

  • 在Atari 57套件的几个具有挑战性的游戏中,该算法的性能优于或与深度RL文献中的其他强基准相当。

➡️

继续阅读