本研究提出了一种新的分布鲁棒离线强化学习算法,结合模型估计和双重悲观策略优化,以解决数据分布偏移问题。通过不确定性集建模转移内核的不确定性,优化最坏情况下的性能,提升算法的鲁棒性和样本效率。研究还探讨了动态规划原理的存在条件及其对算法的影响,提出了DR-LSVI-UCB算法,并验证了其在离线动态强化学习中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。