小红花·文摘

我们研究了在源域训练并在目标域部署的离线动态强化学习。通过在线分布鲁棒的马尔可夫决策过程，设计了一个基于总变差距离的不确定性集合，解决非线性问题。提出的DR-LSVI-UCB算法在离线动态强化学习中高效逼近，并与状态和动作空间大小无关，具有多项式次优性界限。数值实验验证了算法的性能和鲁棒性。