本研究提出了一种新的稳健策略计算方法,解决了部分可观察马尔可夫决策过程(POMDP)中策略对环境扰动的稳健性问题。通过结合形式化验证与次梯度上升优化,实验结果表明该方法在多个基准测试中展现出更好的稳健性和泛化能力。
本文提出了一种将时间逻辑推理与部分可观马尔可夫决策过程(POMDP)结合的方法,以解决不确定性下的可解释决策问题。研究表明,基于事件演算的线性时间逻辑生成的持久宏动作显著提高了推理效率和表现力,优于传统方法。
本研究探讨在不确定性条件下学习部分可观察马尔可夫决策过程(POMDP)模型的方法。实验表明,使用大型语言模型(LLM)生成候选概率程序并进行反馈调整,可以更有效地构建低复杂度的POMDP模型。
本研究通过部分可观察马尔可夫决策过程(POMDP)改进了贝叶斯劝说框架,解决了未观察混杂变量的问题,揭示了信息不完全性对信念更新的影响,并降低了实验成本。
本研究提出了一种新算法,解决部分可观测马尔可夫决策过程中的观测噪声适应问题。该算法通过迭代蒙特卡洛步骤,在多个POMDP领域中表现优于现有方法。
本研究提出了一种新的上界价值界限,以提升部分可观察马尔可夫决策过程(POMDP)中状态信念价值的计算效率。尽管计算成本较高,但实证评估表明该方法在基准测试中加速了POMDP求解器的性能。
本研究解决了在全球向可再生能源技术和电动车过渡过程中,关键矿物资源开发中存在的地质不确定性问题。通过引入部分可观察的马尔可夫决策过程(POMDP),论文提出了一种优化关键矿物采购决策的新方法,特别是在初步储量估计不准确时,其效果明显优于传统方法。研究结果为平衡国内资源开发与国际供应多样化提供了量化洞察,为政策制定者在关键矿物供应链中的战略决策提供了系统化的指导。
本研究提出了一种在线ρPOMDP求解器ρPOMCPOW,能够动态精炼信念表征,解决了现有求解器在连续空间中的适应性问题。实验结果显示,其效率和解决方案质量优于现有方法。
本研究探讨了部分可观察马尔可夫决策过程中的策略存在性问题,提出了适用于两类POMDP的精确算法,增强了理论与实用性。
本研究针对自主驾驶中动态道路环境的不确定性问题,提出了一种名为BoT-Drive的规划算法,旨在同时解决行为和轨迹规划的挑战。通过引入驾驶员模型,BoT-Drive提高了对驾驶风格的理解,并利用重要性采样增强了轨迹的安全性与稳健性。实地数据评估显示,与现有方法相比,BoT-Drive在复杂城市驾驶场景中显著提升了驾驶安全性和可靠性。
本研究提出了一种新方法解决预算受限的POMDPs中的计算难题,利用随机森林模型和近端策略优化算法实现可扩展性,并在实际维护场景中验证。
AGI可能通过重新配置现有模式来实现“语言 2.0”,语言具有自相似性和长程依赖性。LLM能力的进步可能来自对现有结构的深入洞察,而不是对语言本身的彻底改革。POMDP和分层结构可以捕捉语言的动态和递归性质。真正的语义理解和实用使用仍然需要以现实世界为背景。
该研究比较了将强化学习算法扩展到带有选项的部分可观察的马尔可夫决策过程(POMDPs)的方法,并提出了 PPOEM 和 SOAP 两种算法来解决该问题。与竞争基准相比,SOAP 表现最稳健,在 POMDP 环境中正确发现选项,并在 Atari 和 MuJoCo 等标准基准上优于 PPOEM、LSTM 和 Option-Critic 基准。
提出了一种针对具有状态请求的 POMDPs 的在线规划算法 AEMS-SR,通过将搜索空间表示为图而不是树,避免了由状态请求产生的搜索空间的指数增长,从而确保了解决方案的质量和有效性。
这项研究使用部分可观察的马尔可夫决策过程(POMDPs)建模,并采用回报的条件风险价值(CVaR)作为值函数。通过使用计算代价更低的信念 - MDP 转移模型来限制值函数,该研究提供了对估计边界的理论性能保证。
该研究论文探讨了部分可观测马尔可夫决策过程(POMDPs)中的最大可达性概率问题(MRPP),研究了一种基于点估计方法和基于试探性启发式搜索的新算法,解决了处理无限时域问题中循环的问题,并在实验评估中表现出优越性。
针对部分可观察的马尔可夫决策问题 (POMDPs),本文研究了一种新颖的最优可观测性问题 (OOP):如何在固定预算下选择一种代理人的传感器,使其达到预期目标。研究表明该问题在一般情况下是不可判定的,而考虑位置策略时是可判定的。我们提出了两种算法解决可判定的 OOP 问题:一种基于 M 的潜在马尔可夫决策过程的最优策略,另一种基于 SMT 的参数合成。我们对 POMDP...
本文介绍了一种基于A*算法的有限时域Dec-POMDPs策略计算方法。该方法以可扩展性为代价来牺牲最优性,在较大的时域内取得竞争性性能。主要特点包括使用聚类的滑动窗口内存、修剪A*搜索树以及使用新颖的A*启发式策略。实验结果显示该方法与最先进的方法相比具有竞争力,并在多个基准测试中表现更优异。此外,还提供了一种基于A*算法的找到最优值上界的方法,适用于长时域问题。实验证明了该方法的有效性和可扩展性。
本研究提出了基于信念空间的ConstrainedZero政策迭代算法,用于平衡效用和安全限制。通过学习神经网络近似的最优值和策略,并引入额外的网络头来估计置信度下的失败概率,以指导在线蒙特卡洛树搜索中的安全动作选择。实验结果表明,该方法在安全关键的POMDP基准、飞机碰撞避免系统和安全二氧化碳储存可持续性问题上有效。
本文介绍了一种使用新颖代理梯度和可调谐自适应尖峰神经元的循环网络,将基于脉冲的神经网络的性能提高至具有挑战性的时间域基准的最新水平,并展示了这些 SNN 的计算效率比具有可比性能的 RNN 高出一到三个数量级,从而使 SNN 成为 AI 硬件实现的有吸引力的解决方案。
完成下面两步后,将自动完成登录并继续当前操作。