这篇论文研究了具有线性函数逼近的离线强化学习问题。提供了一种计算效率高的算法,可以在数据集的单策略覆盖条件下成功。算法能够在固有贝尔曼误差为0的情况下提供保证,并且在固有贝尔曼误差为正值的情况下,次最优误差与固有贝尔曼误差的平方根成比例。下界与强化学习在错误建模情况下的其他设置形成对比。
通过对 Hankel 矩阵的线性方程进行转换,我们得到了系统轨迹的一种隐式核表示,同时保持了激励持久性的要求,并且证明了该表示与一种特定的核回归问题的解是等价的。
本文讨论了区间相交问题,并提出了三个引理解决该问题。引理一:利用离散化可以方便使用各种数据结构。引理二:对于性质B,未确定的数单调递增。引理三:从左到右扫描时,尽量填更小的值。综上所述,使用线段树记录填数代价,进行区间修改和求最小值。处理区间交得到已填数和未填数的下界数组。对于性质A,1直接填入已填数数组,0从右向左扫描区间,尽可能晚地填数。按权值从大到小挖去每个阶段处理过的位置。
伊藤引理帮助求解随机过程下函数的微分,其数学推导比较复杂。应用于金融数学中的随机过程,尤其是BHM公式的推导。
完成下面两步后,将自动完成登录并继续当前操作。