本文研究了非稳态赌徒问题,即分布保持不变但在未知时间发生改变的情况。通过折扣上限置信区间和滑动窗口上限置信区间算法,得到了后者的上界,并对不优的赌博机被玩的次数期望进行了上界估计。证明了存在性突然性改变时的遗憾下界,并证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。
完成下面两步后,将自动完成登录并继续当前操作。