小红花·文摘 - 小红花技术领袖俱乐部

研究了拥有部分信息反馈的对抗在线学习问题，能够在黑盒模型下获得小损失的概率。适用于半强盗问题和上下文强盗问题，并提供之前无法获得的最优保证。

有限误差在线学习中反馈价格的界限

BriefGPT - AI 论文速递 ·

研究了UCRL和后验抽样算法的在线学习方法，以最小化未知连续状态和动作的马尔可夫决策过程中的后悔问题。突出了转移和奖励函数对学习性能的影响。

学习具有未知转移和全信息反馈的对抗性低秩马尔可夫决策过程

BriefGPT - AI 论文速递 ·