斯塔克伯格批量策略学习
原文约300字/词,阅读约需1分钟。发表于: 。本研究提出了一种基于 Stackelberg 的学习算法,用于批量强化学习中的政策学习问题,通过采用领导者 - 追随者结构的博弈论视角,该算法具有收敛性保证和对不同 iable Stackelberg 均衡的收敛性保证,实验证明其在批处理强化学习基准和真实世界数据集上表现良好。
该文介绍了一种针对多人普遍和马尔可夫博弈中追随者为短视情况的强化学习算法,通过最小二乘值迭代来求得 Stackelberg-Nash 均衡。该算法在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的 SNE 建立了第一个可以被证明高效的强化学习算法。