学习具有未知转移和全信息反馈的对抗性低秩马尔可夫决策过程

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

研究了UCRL和后验抽样算法的在线学习方法,以最小化未知连续状态和动作的马尔可夫决策过程中的后悔问题。突出了转移和奖励函数对学习性能的影响。

🎯

关键要点

  • 研究了UCRL和后验抽样算法的在线学习方法。
  • 目标是最小化未知连续状态和动作的马尔可夫决策过程中的后悔问题。
  • 采用非参数高斯过程先验进行研究。
  • 在频率设置下,分析了转移和奖励函数的变异对学习性能的影响。
  • 研究了这些算法的后悔边界问题。
➡️

继续阅读