通过乐观汤普森采样的高效模型基础强化学习
原文中文,约400字,阅读约需1分钟。发表于: 。该研究解决了在机器人行为学习中缺乏有效探索策略的问题,提出了一种新的基于汤普森采样的乐观探索方法。研究表明,这种方法能够显著加速在稀疏奖励和探索困难区域的学习过程,强调了模型不确定性在引导探索中的重要性。
我们提出了一种基于模型的强化学习算法,使用非线性常微分方程描述连续时间动力学。通过校准的概率模型捕捉不确定性,并采用乐观原则进行探索。分析强调了测量选择策略(MSS)在连续时间下的重要性,尤其是在决定何时观察系统时。使用高斯过程建模时,后悔界限为次线性。我们还提出了一种自适应的MSS,能够在更少样本下达到次线性后悔,展示了其在连续时间建模中的优势。