我们研究了在源域训练并在目标域部署的离线动态强化学习。通过在线分布鲁棒的马尔可夫决策过程,设计了一个基于总变差距离的不确定性集合,解决非线性问题。提出的DR-LSVI-UCB算法在离线动态强化学习中高效逼近,并与状态和动作空间大小无关,具有多项式次优性界限。数值实验验证了算法的性能和鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。