有限模糊集的稳健 Q 学习
📝
内容提要
我们提出了一种新颖的 $Q$-learning 算法,用于解决分布鲁棒性马尔可夫决策问题,其中概率测度的不确定性集可以任意选择,只要它仅包含有限数量的测度。因此,我们的方法超越了关于以球为基准测度的不确定性集的研究案例,距离基准测度的距离可以根据 Wasserstein 距离或 Kullback-Leibler...
➡️
我们提出了一种新颖的 $Q$-learning 算法,用于解决分布鲁棒性马尔可夫决策问题,其中概率测度的不确定性集可以任意选择,只要它仅包含有限数量的测度。因此,我们的方法超越了关于以球为基准测度的不确定性集的研究案例,距离基准测度的距离可以根据 Wasserstein 距离或 Kullback-Leibler...