本文研究了线性贝尔曼完备性下的强化学习值迭代算法,提出了一种多项式时间复杂度的算法,解决了大状态空间问题。通过函数逼近和加权最小二乘法,该算法在未知状态转移动态中表现优异,适用于异构线性bandits。此外,研究探讨了离线动态强化学习的性能,提出了DR-LSVI-UCB算法,并验证了其效率和鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。