基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制
原文中文,约300字,阅读约需1分钟。发表于: 。在随机控制的领域中,尤其是在经济学和工程学中,马尔可夫决策过程(MDPs)能够有效地建模各种随机决策过程,从资产管理到运输优化。本文定义了一个 MDP 框架,SD-MDP,通过解开 MDPs...
本文介绍了马尔可夫决策过程(MDPs)在随机控制领域的应用。通过解开MDPs的因果结构,提供了时间因果图上的不同分区。将这个估计器集成到蒙特卡洛规划算法中,得出了算法的简单遗憾界限。通过实际经济示例展示了在SD-MDP框架下,MCTS规划算法取得更高预期奖励的政策改进。