本文研究了带有动作切换代价的敌对多臂赌博机问题,证明了玩家T回合的最小极大后悔度为Θ(T^2/3),并提出了一个多尺度随机游走的新随机化结构,可能对困难的学习问题有帮助。
完成下面两步后,将自动完成登录并继续当前操作。