小红花·文摘

本文探讨了强化学习中的新方法，研究如何在没有显式访问马尔可夫决策过程（MDP）状态的情况下，利用历史互动模型进行学习。提出了改进的后悔边界和状态聚合误差界限，并介绍了基于特征聚合的政策迭代方法及其与深度强化学习的关系。此外，提出了新的算法以解决连续状态和动作空间中的无悔学习问题，推动了无悔强化学习的可行性和学习能力。

揭秘线性MDP和新颖的动态聚合框架

BriefGPT - AI 论文速递 ·

本文提出了一种基于乘数bootstrap的非参数UCB算法，并结合二阶校正，推导了多臂老虎机的后悔边界。研究表明，该算法在多臂和线性老虎机问题中显著降低了后悔。此外，探讨了折扣上限置信区间和滑动窗口上限置信区间的算法，证明了其一致性和优越性。

使用上置信界算法进行推断

BriefGPT - AI 论文速递 ·