本研究提出了一种新方法DetMCVI,旨在解决确定性部分可观测马尔可夫决策过程的规划问题。该方法在大型问题中表现优异,成功率高,并在移动机器人森林映射中得到了验证。
本研究探讨了多目标马尔可夫决策过程中的期望收益向量实现问题,指出传统纯策略无法满足需求。提出通过混合有限纯策略来逼近任意期望收益向量,并在所有策略下期望收益有限的情况下实现。这一发现对随机策略设计具有重要影响。
本研究探讨了用户目标与隐性需求之间的差距,提出了一种在马尔可夫决策过程中识别瓶颈状态的查询策略,以推断潜在目标所需的最小查询数。实证评估表明,该方法在不同任务中有效推断未明确说明的目标。
本文介绍了NS-Gym,一个针对非平稳马尔可夫决策过程的仿真工具包,旨在应对传统决策模型在动态环境中的挑战。NS-Gym提供标准化接口和基准问题,帮助研究者评估算法的适应性与鲁棒性。
本文提出了一种新颖的依赖感知任务调度策略,结合马尔可夫决策过程和基于扩散的强化学习算法,实时调度无人机辅助的自主车辆任务,有效缩短任务完成时间。
研究了离散折扣马尔可夫决策过程中的熵正则化误差,证明其在逆正则强度下以指数级别减小,并提供了梯度流与最优策略的关系,显示整体误差随迭代次数的平方根呈指数衰减。
本研究提出了一种通用的策略梯度方法DRPMD,旨在解决强健马尔可夫决策过程中的模型不确定性问题,确保全局最优性,并在复杂场景中验证其强健性和全局收敛性。
本研究解决了马尔可夫决策过程中的价值函数有限样本有效性问题,确保了强化学习的可靠性,提出了高维概率收敛保证及边界,建立了更快的收敛速率,并设计了在线计算的渐近协方差矩阵估计器。
本研究探讨多智能体马尔可夫决策中解释反事实结果的挑战。通过新的因果解释公式,将代理行动对结果的反事实效应分解为各代理和状态变量的贡献,帮助理解多智能体互动的潜在影响。
完成下面两步后,将自动完成登录并继续当前操作。