本文提出了一种基于乘数bootstrap的非参数UCB算法,并结合二阶校正,推导了多臂老虎机的后悔边界。研究表明,该算法在多臂和线性老虎机问题中显著降低了后悔。此外,探讨了折扣上限置信区间和滑动窗口上限置信区间的算法,证明了其一致性和优越性。
本文研究了非稳态赌徒问题,即分布保持不变但在未知时间发生改变的情况。通过折扣上限置信区间和滑动窗口上限置信区间算法,得到了后者的上界,并对不优的赌博机被玩的次数期望进行了上界估计。证明了存在性突然性改变时的遗憾下界,并证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。
完成下面两步后,将自动完成登录并继续当前操作。