具有原始-对偶演员评论算法的平均奖励约束马尔可夫决策过程的全局收敛性

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本研究针对一般参数化的无限时域平均奖励约束马尔可夫决策过程(CMDPs),提出了一种原始-对偶自然演员评论算法,确保全局收敛并降低约束违反率,建立了新的理论基准。

🎯

关键要点

  • 本研究针对一般参数化的无限时域平均奖励约束马尔可夫决策过程(CMDPs)展开。
  • 提出了一种原始-对偶自然演员评论算法,旨在提高约束管理效率。
  • 该算法在已知混合时间的情况下实现了全局收敛。
  • 算法在约束违反率方面表现出色。
  • 研究结果确立了平均奖励CMDPs的理论新基准,具有重要的理论和实践意义。
➡️

继续阅读