本文提出了一种基于自适应数据驱动离散化的$Q$-学习算法,适用于大型状态-动作空间的无模型强化学习。研究了相似度度量在强化学习中的应用,提出了提高样本效率的新方法,并探讨了探索策略和状态抽象的学习。最后,通过符号回归生成的表达式提升了模型无关强化学习的样本效率。
完成下面两步后,将自动完成登录并继续当前操作。