未知独立链 $n$- 人随机博弈中纳什均衡策略的可扩展与独立学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究了策略梯度方法在多智能体强化学习问题上的全局非渐进收敛性质,提出了新的独立策略梯度算法,证明了算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2),建立了样本复杂度为O(1/epsilon^5)的界限。同时,找到了一类独立策略梯度算法,可在玩家对游戏类型无感知的情况下,实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。实验证明了理论成果的优点和有效性。

🎯

关键要点

  • 研究策略梯度方法在多智能体强化学习中的全局非渐进收敛性质。
  • 提出新的独立策略梯度算法。
  • 证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2)。
  • 建立样本复杂度为O(1/epsilon^5)的界限。
  • 找到一类独立策略梯度算法,可在玩家对游戏类型无感知的情况下实现收敛性。
  • 实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。
  • 通过实验验证理论成果的优点和有效性。
➡️

继续阅读