小红花·文摘

本研究提出了一种新的分布鲁棒离线强化学习算法，结合模型估计和双重悲观策略优化，以解决数据分布偏移问题。通过不确定性集建模转移内核的不确定性，优化最坏情况下的性能，提升算法的鲁棒性和样本效率。研究还探讨了动态规划原理的存在条件及其对算法的影响，提出了DR-LSVI-UCB算法，并验证了其在离线动态强化学习中的有效性。