本研究针对一般参数化的无限时域平均奖励约束马尔可夫决策过程(CMDPs),提出了一种原始-对偶自然演员评论算法,确保全局收敛并降低约束违反率,建立了新的理论基准。
完成下面两步后,将自动完成登录并继续当前操作。