斯塔克伯格批量策略学习

💡 原文约300字/词,阅读约需1分钟。
📝

内容提要

该文介绍了一种针对多人普遍和马尔可夫博弈中追随者为短视情况的强化学习算法,通过最小二乘值迭代来求得 Stackelberg-Nash 均衡。该算法在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的 SNE 建立了第一个可以被证明高效的强化学习算法。

🎯

关键要点

  • 研究了带有领导者和追随者的多人普遍和马尔可夫博弈。

  • 关注追随者为短视的情况。

  • 开发了优化和悲观变种的最小二乘值迭代的强化学习算法。

  • 算法旨在求得 Stackelberg-Nash 均衡 (SNE)。

  • 算法可在大状态空间的函数逼近工具中简单应用。

  • 在具有线性函数逼近的情况下,证明了亚线性遗憾和亚最优性。

  • 为解决追随者为短视的普遍和马尔可夫博弈的 SNE 建立了第一个可以被证明高效的强化学习算法。

➡️

继续阅读