本研究提出了一种新颖的Lp有界不确定性集合,解决了鲁棒马尔可夫决策过程中的复杂性问题,显著优于传统计算,为非矩形鲁棒MDP的研究奠定了基础。
我们研究了在源域训练并在目标域部署的离线动态强化学习。通过在线分布鲁棒的马尔可夫决策过程,设计了一个基于总变差距离的不确定性集合,解决非线性问题。提出的DR-LSVI-UCB算法在离线动态强化学习中高效逼近,并与状态和动作空间大小无关,具有多项式次优性界限。数值实验验证了算法的性能和鲁棒性。
本文介绍了一种名为SAL的算法,利用异构数据源构建不确定性集合,并针对相关性稳定性进行强鲁棒性优化。该算法在随机梯度优化的情况下证明了可行性,并在模拟和实际数据集上进行了实证研究,验证了其有效性。
该研究提出了一种新颖的树度量的不确定性集合,并通过支持上的树结构表明,最大最小鲁棒输运(OT)问题也具有封闭形式的表达式,可以快速计算。同时,研究者还通过负定性来提出正定核并在几个模拟中测试了它们的性能。
完成下面两步后,将自动完成登录并继续当前操作。