通过乐观汤普森采样的高效模型基础强化学习

该研究解决了在机器人行为学习中缺乏有效探索策略的问题，提出了一种新的基于汤普森采样的乐观探索方法。研究表明，这种方法能够显著加速在稀疏奖励和探索困难区域的学习过程，强调了模型不确定性在引导探索中的重要性。

我们提出了一种基于模型的强化学习算法，使用非线性常微分方程描述连续时间动力学。通过校准的概率模型捕捉不确定性，并采用乐观原则进行探索。分析强调了测量选择策略（MSS）在连续时间下的重要性，尤其是在决定何时观察系统时。使用高斯过程建模时，后悔界限为次线性。我们还提出了一种自适应的MSS，能够在更少样本下达到次线性后悔，展示了其在连续时间建模中的优势。

强化学习次线性后悔测量选择策略连续时间高斯过程