小红花·文摘

研究了UCRL和后验抽样算法的在线学习方法，以最小化未知连续状态和动作的马尔可夫决策过程中的后悔问题。突出了转移和奖励函数对学习性能的影响。

BriefGPT - AI 论文速递 ·

该研究探讨了在线学习中使用非参数高斯过程先验的UCRL和后验抽样算法，以解决未知连续状态和动作的马尔可夫决策过程中的后悔问题。研究发现核函数对学习性能有重要影响。

BriefGPT - AI 论文速递 ·