该研究提出了一种方差最小化方法,以解决强化学习中传统价值基础算法的收敛速度问题。通过引入贝尔曼误差方差(VBE)和投影贝尔曼误差方差(VPBE),发展了多种有效算法,实验证明了其在优化策略方面的优势。
本文研究了具有线性函数逼近的离线强化学习问题,提出了一种高效算法,能够在单策略覆盖条件下输出与数据集覆盖良好的策略相当的价值。该算法在固有贝尔曼误差为零的情况下提供了首次保证,并表明任何算法需多项式大小的样本复杂度来学习非平凡策略,同时探讨了在线与离线强化学习的差异。
完成下面两步后,将自动完成登录并继续当前操作。