本研究提出了SPRIG框架,以解决深度强化学习代理在高维感知环境中协调感知与决策的难题。实验结果显示,SPRIG在Atari BeamRider环境中的表现优于标准PPO,回报率提升约30%。
本研究解决了Stackelberg一般总和博弈中在线学习的有效性问题,提出了一种新的框架。通过引入学习到的微分同胚,将联合行动空间映射到光滑的黎曼流形上,实现了对在线学习的高效支持,理论上证明了在凸流形上的遗憾最小化,并展示了该方法在网络安全与经济供应链优化等领域的有效应用。
本文研究了两人轮流博弈中的均衡计算问题,提出了一种多项式时间算法来计算Stackelberg广泛形式相关均衡(SEFCE),并实现了随机博弈的承诺计算。同时,提供了一种高效算法来近似计算最优广泛形式相关均衡(EFCE),突破了现有算法的局限性。
本研究提出了一种基于注意力机制的神经算子,解决了动态斯塔克尔博格博弈中跟随者最佳响应的解析求解难题,并在领导者控制集合上实现了近似响应,为复杂博弈提供了新方法。
本研究开发了一种强化学习算法,用于解决追随者为短视的多人普遍和马尔可夫博弈,实现Stackelberg-Nash均衡。该算法在大状态空间中应用简单,并在在线和离线设置下证明了亚线性遗憾和亚最优性。这是第一个高效解决追随者为短视的普遍和马尔可夫博弈的强化学习算法。
应用层次图和斯塔克伯格博弈探讨警方资源有限时打击犯罪分子的有效策略,结果表明该方法在短时间内能够高效解决复杂问题。
该文介绍了一种学习自动驾驶车辆驾驶模型的框架,通过知识分享和个性化模型,实现多个车辆之间的协作,提高在真实世界中驾驶场景的暴露度。
本文研究了智能电网与插电式电动车群组之间的能量交换问题,并使用非合作博弈模型进行分析。智能电网制定价格以优化收益,并确保插电式电动车群组的参与。插电式电动车群组需要考虑充电收益和成本权衡来确定充电策略。本文提出了一种分布式算法实现智能电网和插电式电动车群组之间的均衡,并扩展到可处理缓慢变化环境的时变情形。
完成下面两步后,将自动完成登录并继续当前操作。