本文研究了受随机阈值约束的约束马尔可夫决策过程(CMDP),提出了随机悲观-乐观阈值(SPOT)算法,以确保强化学习在不确定环境中的安全性,并证明其在奖励后悔和约束违反方面的优越性。
完成下面两步后,将自动完成登录并继续当前操作。