本文探讨了强化学习中的新方法,研究如何在没有显式访问马尔可夫决策过程(MDP)状态的情况下,利用历史互动模型进行学习。提出了改进的后悔边界和状态聚合误差界限,并介绍了基于特征聚合的政策迭代方法及其与深度强化学习的关系。此外,提出了新的算法以解决连续状态和动作空间中的无悔学习问题,推动了无悔强化学习的可行性和学习能力。
完成下面两步后,将自动完成登录并继续当前操作。