小红花·文摘

本文介绍了加速自然策略梯度算法（ANPG）用于解决无限时间折扣奖励马尔可夫决策过程问题。ANPG在一般参数化情况下具有较低的样本复杂度和迭代复杂度，通过改进样本复杂度实现了更高的效率。该算法不需要假设重要性采样权重的方差有上界。在无Hessian和无重要性采样算法类别中，ANPG的样本复杂度超过了已知算法的倍数，并与其迭代复杂度相匹配。