本文提出了一种新方法,结合拉格朗日引导的蒙特卡洛树搜索与全局双上升,解决大规模约束部分可观察马尔可夫决策过程(CPOMDPs)的在线问题。通过引入历史依赖的双变量,优化局部动作选择,增强探索效果与决策安全性。
完成下面两步后,将自动完成登录并继续当前操作。