本研究提出了一种新方法DetMCVI,旨在解决确定性部分可观测马尔可夫决策过程的规划问题。该方法在大型问题中表现优异,成功率高,并在移动机器人森林映射中得到了验证。
本研究探讨了多目标马尔可夫决策过程中的期望收益向量实现问题,指出传统纯策略无法满足需求。提出通过混合有限纯策略来逼近任意期望收益向量,并在所有策略下期望收益有限的情况下实现。这一发现对随机策略设计具有重要影响。
本研究探讨了用户目标与隐性需求之间的差距,提出了一种在马尔可夫决策过程中识别瓶颈状态的查询策略,以推断潜在目标所需的最小查询数。实证评估表明,该方法在不同任务中有效推断未明确说明的目标。
本文介绍了NS-Gym,一个针对非平稳马尔可夫决策过程的仿真工具包,旨在应对传统决策模型在动态环境中的挑战。NS-Gym提供标准化接口和基准问题,帮助研究者评估算法的适应性与鲁棒性。
本文提出了一种新颖的依赖感知任务调度策略,结合马尔可夫决策过程和基于扩散的强化学习算法,实时调度无人机辅助的自主车辆任务,有效缩短任务完成时间。
本研究提出了一种通用的策略梯度方法DRPMD,旨在解决强健马尔可夫决策过程中的模型不确定性问题,确保全局最优性,并在复杂场景中验证其强健性和全局收敛性。
本研究提出了DISaM双策略解决方案,解决了机器人操作任务中主动探索信息的缺失问题。该方法通过因子化的上下文马尔可夫决策过程,有效分离信息寻求与接收策略,显著提升了多种操作任务的表现。
本研究解决了马尔可夫决策过程中的价值函数有限样本有效性问题,确保了强化学习的可靠性,提出了高维概率收敛保证及边界,建立了更快的收敛速率,并设计了在线计算的渐近协方差矩阵估计器。
本研究探讨多智能体马尔可夫决策中解释反事实结果的挑战。通过新的因果解释公式,将代理行动对结果的反事实效应分解为各代理和状态变量的贡献,帮助理解多智能体互动的潜在影响。
该研究探讨了策略梯度方法在强化学习中的应用,分析了其收敛性和性能保证。结果表明,策略梯度算法在平均奖励马尔可夫决策过程中的收敛速度为O(log(T)),并提供了有限时间的性能保证,强调了与折扣奖励的区别。
本文探讨了一种结合强化学习与监督学习的深度学习方法,旨在解决部分可观察马尔可夫决策过程中的性能问题。研究提出了多种算法,包括基于循环神经网络的因果状态学习、部分监督强化学习框架及Langevinized Kalman Temporal-Difference算法,显示出在复杂环境中的优越性能和样本效率,为强化学习的实际应用提供了新思路。
本文研究了新型高级策略梯度方法在马尔可夫决策问题中的应用,提出了一种基于距离价值函数的Proximal Policy Optimization算法,有效解决了采样误差问题。实验结果显示,该算法在多负载条件下优于现有方法,接近最优结果。此外,探讨了强化学习在服务速率控制、网络控制优化及多类流体排队网络中的应用,提出了高效的控制策略和算法,显著提高了调度效率。
本文提出了一种多智能体深度强化学习框架,旨在优化大型交通基础设施管理。该框架利用部分可观测马尔可夫决策过程,解决不确定性和资源有限的管理问题。通过DDMAC-CTDE方法,在弗吉尼亚州的交通网络中展示了优越性能,提供了近乎最优的解决方案。
本研究提出了一种政策优化算法,旨在解决成本约束下的马尔可夫决策过程中的后悔最小化问题。该算法在特定条件下实现了较低的后悔度和约束违反率,并扩展到弱通信领域。同时,研究开发了多种有效的学习算法,改进了现有最佳结果,提升了算法的计算效率和遗憾界限。
本文介绍了傅里叶神经映射(FNM)框架,利用算子学习方法高效近似参数化物理模型,特别是在非线性参数与可观测量之间的映射。研究了离群分布的泛化问题,并提出了信息论泛化边界的通用框架,同时在部分可观测马尔可夫决策过程中提供了新的启发式方法。
本文研究了基于强化学习和马尔可夫决策过程的电动汽车充电站协调方法,提出了改进的成本函数和新算法,显著提升了充电需求的协调性能。通过智能电表数据优化投标决策,并提出安全非同步策略优化方法,解决了充电计划优化问题,实现了电费节约和需求预测的准确性。
该研究提出了一种新的人机协作解决方案,结合图神经网络和马尔可夫决策模型,帮助机器人预测人类决策,从而提高任务规划的可解释性和效率。实验结果显示,该方法显著降低了规划成本,并通过强化学习优化了人机协作,提升了复杂任务的性能。
完成下面两步后,将自动完成登录并继续当前操作。