一种具有均匀 PAC 保证的限制 MDP 的策略梯度原始对偶算法

我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始 - 对偶算法，同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证，并在一个简单的 CMDP 示例中进行实证展示，证明了算法收敛至最优策略，而现有算法则表现出振荡性能和约束违规。

本文介绍了一种新型的策略梯度原始-对偶算法，具有均匀概率近似正确性保证。该算法在收敛至最优策略、次线性遗憾和多项式样本复杂度方面具有理论保证，并在一个简单的CMDP示例中进行了实证展示。结果表明，该算法能够收敛至最优策略，而现有算法则表现出振荡性能和约束违规。

算法