小红花·文摘

本文研究了线性贝尔曼完备性下的强化学习值迭代算法，提出了一种多项式时间复杂度的算法，解决了大状态空间问题。通过函数逼近和加权最小二乘法，该算法在未知状态转移动态中表现优异，适用于异构线性bandits。此外，研究探讨了离线动态强化学习的性能，提出了DR-LSVI-UCB算法，并验证了其效率和鲁棒性。