研究了拥有部分信息反馈的对抗在线学习问题,能够在黑盒模型下获得小损失的概率。适用于半强盗问题和上下文强盗问题,并提供之前无法获得的最优保证。
研究了UCRL和后验抽样算法的在线学习方法,以最小化未知连续状态和动作的马尔可夫决策过程中的后悔问题。突出了转移和奖励函数对学习性能的影响。
完成下面两步后,将自动完成登录并继续当前操作。