学习符号持久宏动作以解决时间相关的部分可观马尔可夫决策过程
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本文提出了一种将时间逻辑推理与部分可观马尔可夫决策过程(POMDP)结合的方法,以解决不确定性下的可解释决策问题。研究表明,基于事件演算的线性时间逻辑生成的持久宏动作显著提高了推理效率和表现力,优于传统方法。
🎯
关键要点
- 提出了一种将时间逻辑推理与部分可观马尔可夫决策过程(POMDP)结合的方法。
- 该方法旨在解决不确定性下的可解释决策问题。
- 利用事件演算基础上的线性时间逻辑生成持久宏动作,显著减少推理时间。
- 所学的宏动作在计算效率和表现力上显著优于传统的时间独立启发式方法。
➡️