可复制的赌徒机制设计

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文研究了非稳态赌徒问题,即分布保持不变但在未知时间发生改变的情况。通过折扣上限置信区间和滑动窗口上限置信区间算法,得到了后者的上界,并对不优的赌博机被玩的次数期望进行了上界估计。证明了存在性突然性改变时的遗憾下界,并证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。

🎯

关键要点

  • 研究非稳态赌徒问题,分布保持不变但在未知时间发生改变。

  • 提出两种算法:折扣上限置信区间和滑动窗口上限置信区间。

  • 通过Hoeffding不等式得到了滑动窗口上限置信区间的上界。

  • 对不优的赌博机被玩的次数期望进行了上界估计。

  • 证明了存在性突然性改变时的遗憾下界。

  • 证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。

➡️

继续阅读