基于采样规范的智能能源系统学习控制的保护
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种强化学习框架,用于在未知的随机环境中合成控制策略。该框架将环境建模为马尔可夫决策过程,并学习一种最优策略,以满足给定的规范。通过引入基于规范的奖励和路径相关的折扣机制,最优策略能够有效地满足规范目标。无模型强化学习算法使用这些奖励和折扣因子,保证收敛到最优策略。通过两个运动规划案例研究,展示了该基于强化学习的合成方法的适用性。
🎯
关键要点
- 提出了一种强化学习框架,用于在未知的随机环境中合成控制策略。
- 环境被建模为马尔可夫决策过程(MDP)。
- 学习一种策略,最大化满足给定的线性时间逻辑(LTL)规范的概率。
- 引入基于LTL公式的奖励和路径相关的折扣机制。
- 最优策略有效地最大化满足LTL目标的概率。
- 无模型强化学习算法使用奖励和折扣因子,保证收敛到最优策略。
- 通过两个运动规划案例研究展示了基于强化学习的合成方法的适用性。
➡️