本文研究了无限时间段平均回报的马尔可夫决策过程(MDP),提出了一种基于策略梯度的算法,证明了其全局收敛性及后悔度为$ ilde { ext{O}}({T}^{3/4})$。此外,首次探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束分析,提出了原始对偶的策略梯度算法,确保低遗憾和约束违反。
完成下面两步后,将自动完成登录并继续当前操作。