本研究开发了一种强化学习算法,用于解决追随者为短视的多人普遍和马尔可夫博弈,实现Stackelberg-Nash均衡。该算法在大状态空间中应用简单,并在在线和离线设置下证明了亚线性遗憾和亚最优性。这是第一个高效解决追随者为短视的普遍和马尔可夫博弈的强化学习算法。
完成下面两步后,将自动完成登录并继续当前操作。