在不确定环境中确保安全:通过随机阈值的约束MDP

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文研究了受随机阈值约束的约束马尔可夫决策过程(CMDP),提出了随机悲观-乐观阈值(SPOT)算法,以确保强化学习在不确定环境中的安全性,并证明其在奖励后悔和约束违反方面的优越性。

🎯

关键要点

  • 本文研究了受随机阈值约束的约束马尔可夫决策过程(CMDP)。
  • 研究的目的是保障在未知的不确定环境中的强化学习安全。
  • 提出了随机悲观-乐观阈值(SPOT)算法,基于模型的原始对偶算法。
  • SPOT算法能够在不确定的动态环境中实现多重约束下的强化学习。
  • 证明了SPOT算法在奖励后悔和约束违反方面的优越性,能够实现次线性表现。
➡️

继续阅读