通过乐观汤普森采样的高效模型基础强化学习

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

我们提出了一种基于模型的强化学习算法,使用非线性常微分方程描述连续时间动力学。通过校准的概率模型捕捉不确定性,并采用乐观原则进行探索。分析强调了测量选择策略(MSS)在连续时间下的重要性,尤其是在决定何时观察系统时。使用高斯过程建模时,后悔界限为次线性。我们还提出了一种自适应的MSS,能够在更少样本下达到次线性后悔,展示了其在连续时间建模中的优势。

🎯

关键要点

  • 提出了一种基于模型的强化学习算法,使用非线性常微分方程描述连续时间动力学。

  • 使用校准的概率模型捕捉不确定性,并采用乐观原则进行探索。

  • 分析强调了测量选择策略(MSS)在连续时间下的重要性,尤其是在决定何时观察系统时。

  • 使用高斯过程建模时,后悔界限为次线性。

  • 提出了一种自适应的MSS,能够在更少样本下达到次线性后悔。

  • 展示了连续时间建模相对于离散时间建模的优势。

  • 自适应MSS相对于标准基线的优势得到了验证。

➡️

继续阅读