该文章介绍了一种适用于大规模或无限状态空间的基于模型的强化学习算法,通过维护一组与当前体验一致的动态模型,并进行探索和利用阶段,来寻找在状态预测中引起高度分歧的策略。作者证明该算法在实现和最优规划的假设下能够在许多自然设置中得到完美的政策,并提出了使用神经网络的实用近似方法,证明了其在实践中的性能和样本效率。
该文章介绍了一种基于模型的强化学习算法,使用非线性常微分方程来表示连续时间动力学。研究表明,在连续时间下,测量选择策略的重要性显现出来。作者提出了一种自适应的、数据依赖的实际测量选择策略,能够在明显更少的样本下达到次线性的后悔。
完成下面两步后,将自动完成登录并继续当前操作。