一种解决不完全信息博弈的策略梯度方法与迭代收敛
原文中文,约200字,阅读约需1分钟。发表于: 。在这篇论文中,我们研究了在两人零和不完全信息扩展形式博弈中是否可以安全地使用策略梯度,并首次证明了策略梯度方法在自我对弈中收敛于正则化纳什均衡点。
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异。其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。