小红花·文摘

该文提出了一种名为ANPG的学习算法，用于解决无限时间折扣奖励马尔可夫决策过程问题。该算法能够在一般参数化情况下实现O(ε^-2)的样本复杂度和O(ε^-1)的迭代复杂度，相比现有技术改进了样本复杂度。