本文研究了带动作切换代价的敌对多臂赌博机问题,证明了玩家的最小极大后悔度为Θ(T^2/3)。同时探讨了在线学习中的反馈问题,提出了一种高效的二阶算法以解决多分类问题,并分析了不同反馈类型对遗憾的影响。这些研究结果为改进在线学习算法提供了新思路。
本文研究了带有动作切换代价的敌对多臂赌博机问题,证明了玩家的最小极大后悔度为Θ(T^2/3)。探讨了反馈在在线学习中的作用,提出了优化算法以减少期望后悔,并研究了不同类型自适应对手的影响。还提出了新算法以改善政策遗憾边界,展示了在动态情况下的最佳后悔上限。
完成下面两步后,将自动完成登录并继续当前操作。