本文探讨了后验抽样算法在约束马尔可夫决策过程(CMDP)中的应用,提供了近最优的遗憾界限。研究表明,该算法在无限时间不折扣设置中有效平衡探索与开发,并在理论与实践中表现良好。此外,提出了用于最大化累积奖励的模型基础算法,确保成本平均值约束。
完成下面两步后,将自动完成登录并继续当前操作。