自然策略梯度算法对无限时间折扣回报马尔可夫决策过程的参数化泛化的样本复杂度改进
原文中文,约400字,阅读约需1分钟。发表于: 。设计高效学习算法解决无限时间折扣奖励马尔可夫决策过程问题,提出了应用加速随机梯度下降过程获取自然策略梯度的加速自然策略梯度算法(ANPG)。ANPG 在一般参数化情况下,实现了 O (ε^-2) 的样本复杂度和 O (ε^-1) 的迭代复杂度,其中 ε 定义了最优性误差。相比现有技术,ANPG 通过一个 log (1/ε) 因子改进了样本复杂度。ANPG...
该文提出了一种名为ANPG的学习算法,用于解决无限时间折扣奖励马尔可夫决策过程问题。该算法能够在一般参数化情况下实现O(ε^-2)的样本复杂度和O(ε^-1)的迭代复杂度,相比现有技术改进了样本复杂度。