本文介绍了一种强化学习框架,利用马尔可夫决策过程在未知环境中合成控制策略,以满足线性时间逻辑规范。通过引入基于LTL的奖励和路径折扣机制,最大化满足LTL公式的概率,并确保无模型强化学习算法收敛到最优策略。最后,通过两个运动规划案例验证了该方法的有效性。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: