本文研究了纯探索问题中具有无限多臂的赌博机问题,提出了两种算法,分别以最小的期望和固定样本复杂度为目标,最终准确选择一个高质量臂,使其平均奖励与前 $η$ 的部分的奖励最大值的差别小于 $ε$,并给出了理论证明。
完成下面两步后,将自动完成登录并继续当前操作。