小红花·文摘

本文介绍了有限状态-动作折扣马尔可夫决策过程的价值函数多面体结构和一种新的算法Geometric Policy Iteration (GPI)。GPI使用单个状态的策略更新，以更快的价值改进，同时允许状态值的异步更新。证明了GPI的复杂度达到了策略迭代的最佳已知界限，并展示了GPI在各种大小的MDPs上的优越性。