本文研究了高速客运铁路的动态定价策略,提出了一种基于非零和马尔可夫博弈的多智能体强化学习框架。研究结果表明,用户偏好和定价政策对乘客选择及系统动态具有重要影响,为铁路定价策略的发展奠定了基础。
本文综述了多智能体强化学习(MARL)的理论分析,重点讨论了马尔可夫博弈和扩展形式博弈中的算法结果,提出了新的马尔可夫潜势博弈定义和独立策略梯度算法,并验证了其收敛性和有效性。同时,探讨了公平性和风险厌恶等人类决策因素在MARL中的应用。
本研究提出了一种新型逆强化学习方法,通过人类反馈优化AI决策,结合多任务学习和离线强化学习,提高机器人策略模型的效率。同时,研究探讨了在马尔可夫博弈中学习领导者-追随者结构的算法,并验证了最大似然估计在不同模型下的收敛性,为RLHF算法提供了新见解。
本文研究了多智能体强化学习(MARL)在马尔可夫博弈中的应用,提出了多智能体解耦系数(MADC)作为新的复杂度度量,并基于此提出了一个统一的算法框架,以确保在低MADC情况下有效学习纳什均衡。该算法结合均衡求解器和优化次程序,避免了复杂的约束优化问题,适合实证实现。
本文介绍了一种分布式离线强化学习方法,旨在解决有限数据和环境不匹配的问题。提出的基于悲观主义的算法在马尔可夫博弈中证明了其极小极大最优性。研究表明,离线强化学习需要多项式大小的样本复杂度,并且即使在良好条件下,仍需大量样本来估计策略价值。通过模拟实验验证了新算法的性能和鲁棒性。
该文章提出了一个统一安全强化学习和鲁棒强化学习问题的框架,基于两人零和马尔可夫博弈,提出了双重策略迭代方案和深度强化学习算法DRAC。实验结果显示,DRAC在各种情景下表现出高性能和持续的安全性,优于其他基准算法。
该文介绍了一种针对多人普遍和马尔可夫博弈中追随者为短视情况的强化学习算法,通过最小二乘值迭代来求得 Stackelberg-Nash 均衡。该算法在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的 SNE 建立了第一个可以被证明高效的强化学习算法。
该文提出了一个框架来统一安全强化学习和鲁棒强化学习的问题,建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。设计了一种用于实际实现的深度强化学习算法 DRAC,安全关键的基准评估表明 DRAC 在所有情景下实现了高性能和持续的安全性,并且明显优于所有基准线。
完成下面两步后,将自动完成登录并继续当前操作。