加速自然策略梯度算法(ANPG)用于解决无限时间折扣奖励马尔可夫决策过程问题。ANPG在一般参数化情况下具有较低的样本复杂度和迭代复杂度,通过改进样本复杂度提高了效率。
完成下面两步后,将自动完成登录并继续当前操作。