本研究提出了一种新规划框架,将蒙特卡洛树搜索与主动推理目标结合,以解决不确定环境中探索与目标导向行为的平衡问题。该方法在连续控制任务中优于独立的CEM和随机回合的MCTS。
本研究在不确定环境下,通过构建游戏环境捕捉Golog程序的所有可能执行情况,成功找到实现程序和满足时间目标的方案。实验结果表明,该方法在两个领域中可行。
完成下面两步后,将自动完成登录并继续当前操作。