小红花·文摘 - 小红花技术领袖俱乐部

研究了UCRL和后验抽样算法的在线学习方法，以最小化未知连续状态和动作的马尔可夫决策过程中的后悔问题。突出了转移和奖励函数对学习性能的影响。

学习具有未知转移和全信息反馈的对抗性低秩马尔可夫决策过程

BriefGPT - AI 论文速递 ·