在线 CMDPs 中的无模型、后悔优化的最佳策略识别

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

研究提出PRI算法,用于在线约束马尔可夫决策过程中的最优策略识别问题。该算法基于CMDP的有限随机性属性,实现了无模型的高概率接近最优策略的学习,并提供了改进的后悔损失和约束违规的保证。

🎯

关键要点

  • 研究提出PRI算法,用于在线约束马尔可夫决策过程中的最优策略识别问题。
  • PRI算法基于CMDP的有限随机性属性。
  • 该算法实现了无模型的高概率接近最优策略的学习。
  • 在表格设置下,PRI算法提供了改进的后悔损失和约束违规的保证。
➡️

继续阅读