小红花·文摘

本文研究了部分可观测马尔可夫决策过程（POMDPs）中的安全可达性目标，提出了一种基于目标约束信念空间的方法来合成有效策略。同时，探讨了在不确定参数下的分布鲁棒MDP，并提出了一种新的模糊集形式来描述不确定性空间，实验验证了其有效性。