本文提出了一种高效的自适应数据驱动离散化的 $Q$-学习算法,适用于大型状态-动作空间的无模型强化学习。该算法通过自适应离散化平衡探索与开发,具备良好的性能保证和复杂度。此外,研究探讨了在线强化学习问题,提出了乐观估计算法,并在连续马尔可夫决策过程中实现了速率最优的样本复杂性。
完成下面两步后,将自动完成登录并继续当前操作。