基于近似采样的强化学习更高效的随机探索

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

该论文提出了一个算法框架,结合了不同的近似抽样方法和Feel-Good Thompson Sampling (FGTS)方法。在线性MDPs中应用时,该算法的遗憾分析得到了关于维度的最佳依赖关系,超过了现有的随机算法。在需要深度探索的任务中,该算法表现更好。在Atari 57套件的几个具有挑战性的游戏中,该算法在性能上要么优于,要么与深度RL文献中的其他强基准相当。

原文中文,约400字,阅读约需1分钟。
阅读原文