本研究提出了一种无模型的强化学习框架,解决了在处理Omega-正则规范时奖励信号与规范语义不匹配的问题。该方法将绝对活跃规范转化为平均奖励目标,能够在未知的通信马尔可夫决策过程中实现更好的学习效果和收敛性,无需周期重置。
本研究探讨了大语言模型后训练中强化学习的结构假设,指出将其视为马尔可夫决策过程的简化假设存在问题,并发现迭代监督细调方法的性能与基于GRPO的训练相当。
本研究探讨了受监控的马尔可夫决策过程(Mon-MDPs)中不可观察奖励的问题。通过函数逼近方法,智能体能够从可观察奖励的状态泛化到不可观察奖励的环境状态。为了解决过度泛化导致的奖励错误推断,提出了一种基于奖励不确定性的谨慎策略优化方法。
本研究提出了一种将问题解决视为确定性马尔可夫决策过程的框架FPS,旨在解决科学和工程中缺乏具体形式化的问题。该框架在表达性、健全性和完整性方面表现优异,并创建了三个新的问题解决基准,具有重要应用潜力。
本研究提出彩虹延迟补偿(RDC)框架,旨在解决多智能体系统中的观察延迟问题。通过扩展去中心化部分可观察马尔可夫决策过程,RDC有效克服个体延迟对强化学习的影响,实验结果显示在多种延迟场景下显著提升性能。
本研究提出了一种新的价值迭代算法,旨在提高线性马尔可夫决策过程的计算效率。该算法通过计算访问过的状态集的价值函数最小值,显著提升了效率,并保持了遗憾界限。这一方法有助于在广泛状态空间中有效应用强化学习。
本研究提出了一种基于马尔可夫决策过程的新模型,克服了现有欺骗路径规划方法在对抗性干预下的局限性。通过引入信息价值目标,增强了路径规划的欺骗效果,并通过实验验证了其优越性。
本研究提出了一种基于合作自适应马尔可夫决策过程的方法,旨在解决机器人辅助康复中的人机界面设计问题。研究表明,在特定条件下,系统能够收敛至独特的纳什均衡,为自适应系统设计提供理论指导。
本研究提出了一种新的框架——认识模糊马尔可夫决策过程(EA-MDP),旨在解决在线决策中的复杂性问题。通过量子测量技术计算奖励函数,验证了在认识模糊情况下存在最优策略和价值函数,实验结果表明代理能够收敛到最优策略。
本研究探讨了在不可逆错误情况下,强化学习算法的奖励最大化问题。提出了一种新方法,证明在特定情境中,避免灾难的算法能够保障安全并确保高回报。这为马尔可夫决策过程提供了无悔保证,表明智能体在高风险环境中可实现自给自足。
本文提出了一种新型非参数方法,克服了现有马尔可夫决策过程反事实推断的局限性。该方法通过计算所有兼容因果模型的反事实转移概率,提供了高效、可扩展的解决方案,展现出更强的稳健性。
本研究提出了一种新方法,利用单一智能体的马尔可夫决策过程(MDP)和概率超属性,解决多智能体在随机动力学下的规划问题。案例研究展示了该方法的灵活性和表达能力,拓宽了现有规划技术的规范能力。
本文研究了模型预测控制(MPC)与强化学习(RL)的关系,探讨其在马尔可夫决策过程中的应用与优势。提出了一种基于演员-评论家方法的分类框架,并展示了如何利用MPC的在线优化提升政策性能。
本研究提出TPAoI指标,以解决优先网络中服务状态更新不足的问题。通过马尔可夫决策过程建模和对抗双深度Q网络算法优化,TPAoI指标显著降低了信息年龄47%和更新频率48%。
本文综述了基于马尔可夫决策过程(MDP)的方法,提出了多种算法和表示方式,以解决人工智能中的规划问题。研究涵盖了启发式搜索、状态相似性度量、值迭代算法及强化学习中的抽象机制,并探讨了RMDPs的应用潜力,解决了传统MDP的局限性。
在配送需求增长的背景下,众包骑手的动态定价管理变得至关重要。通过马尔可夫决策过程(MDP)模型,站点可以根据骑手的可用性和市场需求制定定价策略,以最大化收入和降低成本。动态定价在高峰期和偏远地区尤为复杂,需要精细规划以应对不确定性。
本研究提出了一种新的$d$-矩形线性稳健正则化马尔可夫决策过程($d$-RRMDP)框架,旨在解决现有稳健正则化方法在微观不确定性下的过度保守性问题。该框架引入线性潜在结构,并开发了一系列算法(R2PVI),在政策稳健性和计算效率上显著优于传统方法。
本文研究了马尔可夫决策过程(MDP)中累积奖励的集中性特性,提出了一种统一的方法,适用于无限期和有限期设置,揭示了不同策略间的奖励差异及其对学习策略后悔率的影响。
本研究提出了一种新型控制器合成方法,基于部分可观察的马尔可夫决策过程,旨在解决自主机器人集体控制器设计中的任务规范、建模和实用规模应用等挑战,并验证其在清洁公共建筑中的有效性。
本文提出了一种强化学习算法,旨在通过降低多智能体马尔可夫决策过程中的时间平均成本来解决问题。该算法结合了Q-learning和加权成本组合,利用传闻算法调制平均矩阵,并在温和条件下近似实现期望界限。
完成下面两步后,将自动完成登录并继续当前操作。