本研究提出了一种新规划框架,将蒙特卡洛树搜索与主动推理目标结合,以解决不确定环境中探索与目标导向行为的平衡问题。该方法在连续控制任务中优于独立的CEM和随机回合的MCTS。
本研究探讨了在不确定环境中Golog程序的综合问题,提出通过构建游戏环境捕捉程序的所有执行情况,以求解实现程序和满足时间目标的方案。实验结果表明该方法在两个领域中是可行的。
本文提出了一种基于贝叶斯方法的情境相关强化学习框架,解决了不可观测上下文和突发性变化的问题。通过硬采样策略和新算法,提升了任务表示学习的效率和健壮性,实验结果在多个基准测试中表现优异。此外,研究探讨了在不确定环境中进行安全学习的方式,展示了算法的实际应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。