霍华德的政策迭代在具有固定位数奖励和任意折扣因子的确定性马尔可夫决策问题中的亚指数性

📝

内容提要

本研究解决了霍华德政策迭代算法在确定性马尔可夫决策问题中的运行时间仍为指数级这一问题。论文提出了一种新的方法,证明在带有固定位数奖励的情况下,霍华德政策迭代的运行时间可达到亚指数界限。其主要发现表明,该算法的性能显著提升,并拓展了其应用范围。

➡️

继续阅读