小红花·文摘

本文提出了一种基于自适应数据驱动离散化的$Q$-学习算法，适用于大型状态-动作空间的无模型强化学习。研究了相似度度量在强化学习中的应用，提出了提高样本效率的新方法，并探讨了探索策略和状态抽象的学习。最后，通过符号回归生成的表达式提升了模型无关强化学习的样本效率。