缩小POMCP:实时无人机搜索与救援框架

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种新方法,结合拉格朗日引导的蒙特卡洛树搜索与全局双上升,解决大规模约束部分可观察马尔可夫决策过程(CPOMDPs)的在线问题。通过引入历史依赖的双变量,优化局部动作选择,增强探索效果与决策安全性。

🎯

关键要点

  • 提出了一种结合拉格朗日引导的蒙特卡洛树搜索与全局双上升的方法。
  • 该方法用于解决大规模约束部分可观察马尔可夫决策过程(CPOMDPs)的在线问题。
  • 全局双参数可能导致探索阶段的短视动作选择,影响决策质量。
  • 引入历史依赖的双变量来优化局部动作选择。
  • 通过递归双上升进行优化,增强探索效果与决策安全性。
  • 通过实证比较展示了方法在示例和大型CPOMDPs上的性能改进。
➡️

继续阅读