在线 CMDPs 中的无模型、后悔优化的最佳策略识别
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究提出PRI算法,用于在线约束马尔可夫决策过程中的最优策略识别问题。该算法基于CMDP的有限随机性属性,实现了无模型的高概率接近最优策略的学习,并提供了改进的后悔损失和约束违规的保证。
🎯
关键要点
- 研究提出PRI算法,用于在线约束马尔可夫决策过程中的最优策略识别问题。
- PRI算法基于CMDP的有限随机性属性。
- 该算法实现了无模型的高概率接近最优策略的学习。
- 在表格设置下,PRI算法提供了改进的后悔损失和约束违规的保证。
➡️