小红花·文摘

本研究针对一般参数化的无限时域平均奖励约束马尔可夫决策过程（CMDPs），提出了一种原始-对偶自然演员评论算法，确保全局收敛并降低约束违反率，建立了新的理论基准。