小红花·文摘

本文研究了受随机阈值约束的约束马尔可夫决策过程（CMDP），提出了随机悲观-乐观阈值（SPOT）算法，以确保强化学习在不确定环境中的安全性，并证明其在奖励后悔和约束违反方面的优越性。

BriefGPT - AI 论文速递 ·

研究提出PRI算法，用于在线约束马尔可夫决策过程中的最优策略识别问题。该算法基于CMDP的有限随机性属性，实现了无模型的高概率接近最优策略的学习，并提供了改进的后悔损失和约束违规的保证。

BriefGPT - AI 论文速递 ·