本研究提出了一种新方法DetMCVI,旨在解决确定性部分可观测马尔可夫决策过程的规划问题。该方法在大型问题中表现优异,成功率高,并在移动机器人森林映射中得到了验证。
本研究提出了一种图表示规划方法,解决了基于学习的规划者在对称性方面的不足,并引入了动作和状态修剪技术,有效管理搜索过程中的对称性,使Fast Downward在IPC学习轨道数据集上超越LAMA。
本研究探讨规划问题的不可解性,提出通过最长公共子序列问题识别共同路径,填补文献空白。实验结果表明,该方法有效识别关键不可达路径,为理解不可解性提供新视角。
本研究提出了一种新方法,利用单一智能体的马尔可夫决策过程(MDP)和概率超属性,解决多智能体在随机动力学下的规划问题。案例研究展示了该方法的灵活性和表达能力,拓宽了现有规划技术的规范能力。
本文综述了基于马尔可夫决策过程(MDP)的方法,提出了多种算法和表示方式,以解决人工智能中的规划问题。研究涵盖了启发式搜索、状态相似性度量、值迭代算法及强化学习中的抽象机制,并探讨了RMDPs的应用潜力,解决了传统MDP的局限性。
本论文研究了策略学习中的规划问题,通过建立关系性神经网络的电路复杂度分析与目标回归搜索之间的联系,证明了电路宽度和深度与物体数量和规划周期成正比,揭示了设计策略学习神经网络的实用性。
结果监督价值模型(OVM)使用结果监督将多步推理转化为规划问题,在两个数学推理数据集上表现出色,并为训练多步推理任务中的验证器提供了新的视角。
该文介绍了CP和SAT方法解决迷宫问题,并提出了一种新的可达性编码。实验证明,该编码在SAT规划问题中非常适用,特别是在同时执行多个动作时。
完成下面两步后,将自动完成登录并继续当前操作。