有限状态马尔可夫决策过程中的离线贝叶斯不确定性量化与后验值优化
发表于: 。在这篇文章中,我们解决了以未知动态的有限状态马尔科夫决策过程(MDPs)的离线使用为情景的贝叶斯不确定性的量化并将其合并的挑战。我们的方法提供了一种原则性方法来区分认识不确定性和机缘不确定性,以及一种无需依赖于 MDP 的后验分布的强假设来找到优化贝叶斯后验期望值的策略的新技术。
在这篇文章中,我们解决了以未知动态的有限状态马尔科夫决策过程(MDPs)的离线使用为情景的贝叶斯不确定性的量化并将其合并的挑战。我们的方法提供了一种原则性方法来区分认识不确定性和机缘不确定性,以及一种无需依赖于 MDP 的后验分布的强假设来找到优化贝叶斯后验期望值的策略的新技术。