通过自适应策略切换满足时间逻辑约束的概率强化学习

本研究探讨受约束强化学习（CRL）中的时间逻辑约束问题，提出了一种新颖框架，结合奖励最大化与约束满足。研究结果表明，该框架可以有效调整学习与约束满足之间的切换概率，保持期望的约束满足水平，且在综合模拟中展现出良好的性能和可扩展性。

本文介绍了一种强化学习框架，利用马尔可夫决策过程在未知环境中合成控制策略，以满足线性时间逻辑规范。通过引入基于LTL的奖励和路径折扣机制，最大化满足LTL公式的概率，并确保无模型强化学习算法收敛到最优策略。最后，通过两个运动规划案例验证了该方法的有效性。