本文研究了受随机阈值约束的约束马尔可夫决策过程(CMDP),提出了随机悲观-乐观阈值(SPOT)算法,以确保强化学习在不确定环境中的安全性,并证明其在奖励后悔和约束违反方面的优越性。
该文介绍了应用Lagrange乘数法对带有不等式约束的C-MDP中的actor critic和natural actor critic算法进行非渐近分析的结果。证明了这些算法在非独立同分布环境中能够找到性能函数的一阶稳定点,其采样复杂度分别为ε^{-2.5}。实验结果表明这两个算法在大网格尺寸上表现良好,受限的自然actor critic稍微优于受限的actor critic,而对于小网格尺寸,后者稍微优于前者。
研究提出PRI算法,用于在线约束马尔可夫决策过程中的最优策略识别问题。该算法基于CMDP的有限随机性属性,实现了无模型的高概率接近最优策略的学习,并提供了改进的后悔损失和约束违规的保证。
完成下面两步后,将自动完成登录并继续当前操作。