小红花·文摘

本文探讨了强化学习中的新方法，研究如何在没有显式访问马尔可夫决策过程（MDP）状态的情况下，利用历史互动模型进行学习。提出了改进的后悔边界和状态聚合误差界限，并介绍了基于特征聚合的政策迭代方法及其与深度强化学习的关系。此外，提出了新的算法以解决连续状态和动作空间中的无悔学习问题，推动了无悔强化学习的可行性和学习能力。