可复制的赌徒机制设计

设计复制验证的赌博机制,分析 Bayesian 代理参与下的均值奖励,提供单个代理和多个代理情况下的复制验证算法及后悔上界。

本文研究了非稳态赌徒问题,即分布保持不变但在未知时间发生改变的情况。通过折扣上限置信区间和滑动窗口上限置信区间算法,得到了后者的上界,并对不优的赌博机被玩的次数期望进行了上界估计。证明了存在性突然性改变时的遗憾下界,并证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。

原文中文,约200字,阅读约需1分钟。发表于:
阅读原文