小红花·文摘

本文提出了一种新方法，结合拉格朗日引导的蒙特卡洛树搜索与全局双上升，解决大规模约束部分可观察马尔可夫决策过程（CPOMDPs）的在线问题。通过引入历史依赖的双变量，优化局部动作选择，增强探索效果与决策安全性。