基于近似采样的强化学习更高效的随机探索
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该论文提出了一个算法框架,结合了不同的近似抽样方法和Feel-Good Thompson Sampling (FGTS)方法。在线性MDPs中应用时,该算法的遗憾分析得到了关于维度的最佳依赖关系,超过了现有的随机算法。在需要深度探索的任务中,该算法表现更好。在Atari 57套件的几个具有挑战性的游戏中,该算法在性能上要么优于,要么与深度RL文献中的其他强基准相当。
🎯
关键要点
-
该论文提出了一个算法框架,结合了不同的近似抽样方法和Feel-Good Thompson Sampling (FGTS)方法。
-
在应用于线性MDPs时,该算法的遗憾分析得到了关于维度的最佳依赖关系,超过了现有的随机算法。
-
该算法在需要深度探索的任务中表现更好。
-
在Atari 57套件的几个具有挑战性的游戏中,该算法的性能优于或与深度RL文献中的其他强基准相当。
➡️