通过乐观汤普森采样的高效模型基础强化学习
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z
我们提出了一种基于模型的强化学习算法,使用非线性常微分方程描述连续时间动力学。通过校准的概率模型捕捉不确定性,并采用乐观原则进行探索。分析强调了测量选择策略(MSS)在连续时间下的重要性,尤其是在决定何时观察系统时。使用高斯过程建模时,后悔界限为次线性。我们还提出了一种自适应的MSS,能够在更少样本下达到次线性后悔,展示了其在连续时间建模中的优势。
原文中文,约400字,阅读约需1分钟。