小红花·文摘

本文研究了无限时间段平均回报的马尔可夫决策过程（MDP），提出了一种基于策略梯度的算法，证明了其全局收敛性及后悔度为$ ilde { ext{O}}({T}^{3/4})$。此外，首次探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束分析，提出了原始对偶的策略梯度算法，确保低遗憾和约束违反。