本文探讨了强化学习中的新方法,研究如何在没有显式访问马尔可夫决策过程(MDP)状态的情况下,利用历史互动模型进行学习。提出了改进的后悔边界和状态聚合误差界限,并介绍了基于特征聚合的政策迭代方法及其与深度强化学习的关系。此外,提出了新的算法以解决连续状态和动作空间中的无悔学习问题,推动了无悔强化学习的可行性和学习能力。
本文提出了一种基于乘数bootstrap的非参数UCB算法,并结合二阶校正,推导了多臂老虎机的后悔边界。研究表明,该算法在多臂和线性老虎机问题中显著降低了后悔。此外,探讨了折扣上限置信区间和滑动窗口上限置信区间的算法,证明了其一致性和优越性。
完成下面两步后,将自动完成登录并继续当前操作。