小红花·文摘

本研究提出了一种新的稳健策略计算方法，解决了部分可观察马尔可夫决策过程（POMDP）中策略对环境扰动的稳健性问题。通过结合形式化验证与次梯度上升优化，实验结果表明该方法在多个基准测试中展现出更好的稳健性和泛化能力。

rfPG: Robust Finite-Memory Policy Gradients for Hidden-Model Partially Observable Markov Decision Processes

BriefGPT - AI 论文速递 ·

本文提出了一种将时间逻辑推理与部分可观马尔可夫决策过程（POMDP）结合的方法，以解决不确定性下的可解释决策问题。研究表明，基于事件演算的线性时间逻辑生成的持久宏动作显著提高了推理效率和表现力，优于传统方法。

学习符号持久宏动作以解决时间相关的部分可观马尔可夫决策过程

BriefGPT - AI 论文速递 ·

本研究探讨在不确定性条件下学习部分可观察马尔可夫决策过程（POMDP）模型的方法。实验表明，使用大型语言模型（LLM）生成候选概率程序并进行反馈调整，可以更有效地构建低复杂度的POMDP模型。

LLM-Guided Probabilistic Program Induction for POMDP Model Estimation

BriefGPT - AI 论文速递 ·

本研究通过部分可观察马尔可夫决策过程(POMDP)改进了贝叶斯劝说框架，解决了未观察混杂变量的问题，揭示了信息不完全性对信念更新的影响，并降低了实验成本。

Policy Evaluation of Sequential Persuasion Processes Considering Unobserved Confounding Factors

BriefGPT - AI 论文速递 ·

本研究提出了一种新算法，解决部分可观测马尔可夫决策过程中的观测噪声适应问题。该算法通过迭代蒙特卡洛步骤，在多个POMDP领域中表现优于现有方法。

Observation Adaptation for Partially Observable Markov Decision Processes via Annealed Importance Resampling

BriefGPT - AI 论文速递 ·

本研究提出了一种新的、更紧的上界价值界限，以提高部分可观察马尔可夫决策过程（POMDPs）求解器的性能。尽管计算成本较高，但实证评估表明这些新界限在多种基准测试中加速了求解过程。

Tighter Value-Function Approximations for Partially Observable Markov Decision Processes

BriefGPT - AI 论文速递 ·

本研究解决了在全球向可再生能源技术和电动车过渡过程中，关键矿物资源开发中存在的地质不确定性问题。通过引入部分可观察的马尔可夫决策过程（POMDP），论文提出了一种优化关键矿物采购决策的新方法，特别是在初步储量估计不准确时，其效果明显优于传统方法。研究结果为平衡国内资源开发与国际供应多样化提供了量化洞察，为政策制定者在关键矿物供应链中的战略决策提供了系统化的指导。

管理关键矿物供应链中的地质不确定性：一种基于POMDP的方法及其在美国锂资源中的应用

BriefGPT - AI 论文速递 ·

该研究提出了一种新算法，通过降低置信度空间维度来解决部分观察马尔可夫决策过程（POMDPs），并成功应用于移动机器人导航等任务。研究还探讨了多智能体情境下的代理模型、粒子滤波算法及领域知识在POMDP策略学习中的应用，显著提高了解决效率和准确度。

在假设驱动的信念MDP中解决多动态模型的不确定性

BriefGPT - AI 论文速递 ·

本文探讨了部分可观测马尔可夫决策过程（POMDP）的近似方法及其性质，研究了优化策略以最大化期望奖励的有效算法，并展示了这些方法在代理导航等领域的应用潜力。

可解释的有限记忆策略用于部分可观测马尔可夫决策过程

BriefGPT - AI 论文速递 ·

该研究探讨了基于部分可观测马尔可夫决策过程（POMDP）的算法，提出结合蒙特卡洛树搜索和神经网络的方法，以提高决策效率和安全性。通过优化信念空间和引入自适应策略，展示了在不确定环境中实现安全规划的有效性，实验结果表明该方法在多个应用场景中具有显著优势。

任何时候的概率约束可证明收敛的在线信念空间规划

BriefGPT - AI 论文速递 ·

本研究针对自主驾驶中动态道路环境的不确定性问题，提出了一种名为BoT-Drive的规划算法，旨在同时解决行为和轨迹规划的挑战。通过引入驾驶员模型，BoT-Drive提高了对驾驶风格的理解，并利用重要性采样增强了轨迹的安全性与稳健性。实地数据评估显示，与现有方法相比，BoT-Drive在复杂城市驾驶场景中显著提升了驾驶安全性和可靠性。

BoT-Drive：使用POMDP进行自主驾驶的层次行为与轨迹规划

BriefGPT - AI 论文速递 ·

本文研究了部分可观察马尔可夫决策过程（POMDPs）的多种解决方案，包括增量修剪、贝叶斯强化学习和递归约束方法。研究表明，增量修剪是最有效的精确算法，而LCEOPT及结合推断与强化学习的框架在实际应用中表现优越，尤其在铁路资产维护领域。

通过Oracle引导的元强化学习解决真正庞大的预算单调POMDP问题

BriefGPT - AI 论文速递 ·

AGI可能通过重新配置现有模式来实现“语言 2.0”，语言具有自相似性和长程依赖性。LLM能力的进步可能来自对现有结构的深入洞察，而不是对语言本身的彻底改革。POMDP和分层结构可以捕捉语言的动态和递归性质。真正的语义理解和实用使用仍然需要以现实世界为背景。

AGI将开发出人类无法理解的“语言 2.0 ”

极道 ·

该研究比较了将强化学习算法扩展到带有选项的部分可观察的马尔可夫决策过程（POMDPs）的方法，并提出了 PPOEM 和 SOAP 两种算法来解决该问题。与竞争基准相比，SOAP 表现最稳健，在 POMDP 环境中正确发现选项，并在 Atari 和 MuJoCo 等标准基准上优于 PPOEM、LSTM 和 Option-Critic 基准。

SOAP-RL: POMDP 环境中的强化学习的连续选项优势传播

BriefGPT - AI 论文速递 ·

提出了一种针对具有状态请求的 POMDPs 的在线规划算法 AEMS-SR，通过将搜索空间表示为图而不是树，避免了由状态请求产生的搜索空间的指数增长，从而确保了解决方案的质量和有效性。

具有状态请求的 POMDP 的在线规划

BriefGPT - AI 论文速递 ·

本文介绍了一种新型的部分可观测马尔可夫决策过程（POMDP）解决方案，利用简化观测模型进行高效规划，确保解决方案质量。研究提出了基于统计总变差距离的概率界限，展示了在高维观测空间中划分的有效性，显著提升了理论性能和实验速度，适用于自主代理在不完全信息环境下的决策制定。

风险厌恶 POMDP 的简化与绩效保证

BriefGPT - AI 论文速递 ·

该研究论文探讨了部分可观测马尔可夫决策过程（POMDPs）中的最大可达性概率问题（MRPP），研究了一种基于点估计方法和基于试探性启发式搜索的新算法，解决了处理无限时域问题中循环的问题，并在实验评估中表现出优越性。

无折扣 POMDP 中带有可达性目标的声音启发搜索值迭代

BriefGPT - AI 论文速递 ·

针对部分可观察的马尔可夫决策问题 (POMDPs)，本文研究了一种新颖的最优可观测性问题 (OOP)：如何在固定预算下选择一种代理人的传感器，使其达到预期目标。研究表明该问题在一般情况下是不可判定的，而考虑位置策略时是可判定的。我们提出了两种算法解决可判定的 OOP 问题：一种基于 M 的潜在马尔可夫决策过程的最优策略，另一种基于 SMT 的参数合成。我们对 POMDP...

POMDP 中最优奖励应观察什么？

BriefGPT - AI 论文速递 ·

本文介绍了多智能体 A*（MAA*）算法，旨在解决有限时间视野下的分散式部分可观测马尔可夫决策问题（DEC-POMDP）。该算法适用于多机器人协调和网络流量控制等合作代理的最优规划。同时，研究探讨了基于模拟的 POMDP 求解器和近似策略迭代算法在不完全信息环境中的应用，展示了现代启发式搜索方法的高效性。

使用多智能体 A* 近似求解 Dec-POMDP

BriefGPT - AI 论文速递 ·

本文探讨了部分可观测马尔可夫决策过程（POMDP）的近似方法及其性质，提供了自主代理在不完全信息环境下的规划解决方案。研究表明，基于多模式信念的策略和POMDP-lite模型在机器人任务中表现优越，并提出了有效的启发式算法以降低计算复杂度。

不精确概率遇上部分可观测性：强健 POMDPs 的游戏语义

BriefGPT - AI 论文速递 ·