针对稳健部分可观察马尔可夫决策过程的悲观迭代规划
发表于: 。本研究针对稳健部分可观察马尔可夫决策过程中转移和观察概率的不确定性问题,提出了一种新的悲观迭代规划框架。该框架通过在每轮迭代中选择对抗性POMDP并计算其有限状态控制器,从而在稳健性和可观察性之间找到平衡,实验证明该方法的鲁棒性优于基线方法。
本研究针对稳健部分可观察马尔可夫决策过程中转移和观察概率的不确定性问题,提出了一种新的悲观迭代规划框架。该框架通过在每轮迭代中选择对抗性POMDP并计算其有限状态控制器,从而在稳健性和可观察性之间找到平衡,实验证明该方法的鲁棒性优于基线方法。