小红花·文摘

本文提出了一种高效的自适应数据驱动离散化的 $Q$-学习算法，适用于大型状态-动作空间的无模型强化学习。该算法通过自适应离散化平衡探索与开发，具备良好的性能保证和复杂度。此外，研究探讨了在线强化学习问题，提出了乐观估计算法，并在连续马尔可夫决策过程中实现了速率最优的样本复杂性。