具有原始-对偶演员评论算法的平均奖励约束马尔可夫决策过程的全局收敛性
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本研究针对一般参数化的无限时域平均奖励约束马尔可夫决策过程(CMDPs),提出了一种原始-对偶自然演员评论算法,确保全局收敛并降低约束违反率,建立了新的理论基准。
🎯
关键要点
- 本研究针对一般参数化的无限时域平均奖励约束马尔可夫决策过程(CMDPs)展开。
- 提出了一种原始-对偶自然演员评论算法,旨在提高约束管理效率。
- 该算法在已知混合时间的情况下实现了全局收敛。
- 算法在约束违反率方面表现出色。
- 研究结果确立了平均奖励CMDPs的理论新基准,具有重要的理论和实践意义。
➡️