小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新的稳健策略计算方法,解决了部分可观察马尔可夫决策过程(POMDP)中策略对环境扰动的稳健性问题。通过结合形式化验证与次梯度上升优化,实验结果表明该方法在多个基准测试中展现出更好的稳健性和泛化能力。

rfPG: Robust Finite-Memory Policy Gradients for Hidden-Model Partially Observable Markov Decision Processes

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本文提出了一种将时间逻辑推理与部分可观马尔可夫决策过程(POMDP)结合的方法,以解决不确定性下的可解释决策问题。研究表明,基于事件演算的线性时间逻辑生成的持久宏动作显著提高了推理效率和表现力,优于传统方法。

学习符号持久宏动作以解决时间相关的部分可观马尔可夫决策过程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究探讨在不确定性条件下学习部分可观察马尔可夫决策过程(POMDP)模型的方法。实验表明,使用大型语言模型(LLM)生成候选概率程序并进行反馈调整,可以更有效地构建低复杂度的POMDP模型。

LLM-Guided Probabilistic Program Induction for POMDP Model Estimation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-04T00:00:00Z

本研究通过部分可观察马尔可夫决策过程(POMDP)改进了贝叶斯劝说框架,解决了未观察混杂变量的问题,揭示了信息不完全性对信念更新的影响,并降低了实验成本。

Policy Evaluation of Sequential Persuasion Processes Considering Unobserved Confounding Factors

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-01T00:00:00Z

本研究提出了一种新算法,解决部分可观测马尔可夫决策过程中的观测噪声适应问题。该算法通过迭代蒙特卡洛步骤,在多个POMDP领域中表现优于现有方法。

Observation Adaptation for Partially Observable Markov Decision Processes via Annealed Importance Resampling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究提出了一种新的上界价值界限,以提升部分可观察马尔可夫决策过程(POMDP)中状态信念价值的计算效率。尽管计算成本较高,但实证评估表明该方法在基准测试中加速了POMDP求解器的性能。

对部分可观察马尔可夫决策过程的更紧价值函数近似

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本研究解决了在全球向可再生能源技术和电动车过渡过程中,关键矿物资源开发中存在的地质不确定性问题。通过引入部分可观察的马尔可夫决策过程(POMDP),论文提出了一种优化关键矿物采购决策的新方法,特别是在初步储量估计不准确时,其效果明显优于传统方法。研究结果为平衡国内资源开发与国际供应多样化提供了量化洞察,为政策制定者在关键矿物供应链中的战略决策提供了系统化的指导。

管理关键矿物供应链中的地质不确定性:一种基于POMDP的方法及其在美国锂资源中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-08T00:00:00Z

本研究提出了一种在线ρPOMDP求解器ρPOMCPOW,能够动态精炼信念表征,解决了现有求解器在连续空间中的适应性问题。实验结果显示,其效率和解决方案质量优于现有方法。

连续空间中的任意增量ρPOMDP规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究探讨了部分可观察马尔可夫决策过程中的策略存在性问题,提出了适用于两类POMDP的精确算法,增强了理论与实用性。

启示:一种可判定的带有Omega-正则目标的部分可观察马尔可夫决策过程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究针对自主驾驶中动态道路环境的不确定性问题,提出了一种名为BoT-Drive的规划算法,旨在同时解决行为和轨迹规划的挑战。通过引入驾驶员模型,BoT-Drive提高了对驾驶风格的理解,并利用重要性采样增强了轨迹的安全性与稳健性。实地数据评估显示,与现有方法相比,BoT-Drive在复杂城市驾驶场景中显著提升了驾驶安全性和可靠性。

BoT-Drive:使用POMDP进行自主驾驶的层次行为与轨迹规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-27T00:00:00Z

本研究提出了一种新方法解决预算受限的POMDPs中的计算难题,利用随机森林模型和近端策略优化算法实现可扩展性,并在实际维护场景中验证。

通过Oracle引导的元强化学习解决真正庞大的预算单调POMDP问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-13T00:00:00Z

AGI可能通过重新配置现有模式来实现“语言 2.0”,语言具有自相似性和长程依赖性。LLM能力的进步可能来自对现有结构的深入洞察,而不是对语言本身的彻底改革。POMDP和分层结构可以捕捉语言的动态和递归性质。真正的语义理解和实用使用仍然需要以现实世界为背景。

AGI将开发出人类无法理解的“语言 2.0 ”

极道
极道 · 2024-08-09T00:48:00Z

该研究比较了将强化学习算法扩展到带有选项的部分可观察的马尔可夫决策过程(POMDPs)的方法,并提出了 PPOEM 和 SOAP 两种算法来解决该问题。与竞争基准相比,SOAP 表现最稳健,在 POMDP 环境中正确发现选项,并在 Atari 和 MuJoCo 等标准基准上优于 PPOEM、LSTM 和 Option-Critic 基准。

SOAP-RL: POMDP 环境中的强化学习的连续选项优势传播

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-26T00:00:00Z

提出了一种针对具有状态请求的 POMDPs 的在线规划算法 AEMS-SR,通过将搜索空间表示为图而不是树,避免了由状态请求产生的搜索空间的指数增长,从而确保了解决方案的质量和有效性。

具有状态请求的 POMDP 的在线规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-26T00:00:00Z

这项研究使用部分可观察的马尔可夫决策过程(POMDPs)建模,并采用回报的条件风险价值(CVaR)作为值函数。通过使用计算代价更低的信念 - MDP 转移模型来限制值函数,该研究提供了对估计边界的理论性能保证。

风险厌恶 POMDP 的简化与绩效保证

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z

该研究论文探讨了部分可观测马尔可夫决策过程(POMDPs)中的最大可达性概率问题(MRPP),研究了一种基于点估计方法和基于试探性启发式搜索的新算法,解决了处理无限时域问题中循环的问题,并在实验评估中表现出优越性。

无折扣 POMDP 中带有可达性目标的声音启发搜索值迭代

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z

针对部分可观察的马尔可夫决策问题 (POMDPs),本文研究了一种新颖的最优可观测性问题 (OOP):如何在固定预算下选择一种代理人的传感器,使其达到预期目标。研究表明该问题在一般情况下是不可判定的,而考虑位置策略时是可判定的。我们提出了两种算法解决可判定的 OOP 问题:一种基于 M 的潜在马尔可夫决策过程的最优策略,另一种基于 SMT 的参数合成。我们对 POMDP...

POMDP 中最优奖励应观察什么?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-17T00:00:00Z

本文介绍了一种基于A*算法的有限时域Dec-POMDPs策略计算方法。该方法以可扩展性为代价来牺牲最优性,在较大的时域内取得竞争性性能。主要特点包括使用聚类的滑动窗口内存、修剪A*搜索树以及使用新颖的A*启发式策略。实验结果显示该方法与最先进的方法相比具有竞争力,并在多个基准测试中表现更优异。此外,还提供了一种基于A*算法的找到最优值上界的方法,适用于长时域问题。实验证明了该方法的有效性和可扩展性。

使用多智能体 A* 近似求解 Dec-POMDP

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-09T00:00:00Z

本研究提出了基于信念空间的ConstrainedZero政策迭代算法,用于平衡效用和安全限制。通过学习神经网络近似的最优值和策略,并引入额外的网络头来估计置信度下的失败概率,以指导在线蒙特卡洛树搜索中的安全动作选择。实验结果表明,该方法在安全关键的POMDP基准、飞机碰撞避免系统和安全二氧化碳储存可持续性问题上有效。

ConstrainedZero: 基于学习的概率性失败代理和自适应安全约束的机会约束的 POMDP 规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-01T00:00:00Z

本文介绍了一种使用新颖代理梯度和可调谐自适应尖峰神经元的循环网络,将基于脉冲的神经网络的性能提高至具有挑战性的时间域基准的最新水平,并展示了这些 SNN 的计算效率比具有可比性能的 RNN 高出一到三个数量级,从而使 SNN 成为 AI 硬件实现的有吸引力的解决方案。

GRSN: 用于 POMDP 和 MARL 的门控递归脉冲神经元

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码