马尔可夫潜在博弈的独立策略镜像下降：扩展到大数量玩家

本文解决了多智能体强化学习中马尔可夫潜在博弈（MPGs）的大规模学习问题，尤其是在相同利益设置下的纳什均衡学习。提出的独立策略镜像下降算法(PMD)通过KL正则化，实现了迭代复杂度对智能体数量的依赖降低到$\sqrt{N}$，显著优于以往研究，实现了在大规模智能体系统中的高效学习。

本文研究了多智能体强化学习中策略梯度方法的全局非渐进收敛性质，提出了新的独立策略梯度算法，并证明了其达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2)，同时建立了样本复杂度为O(1/epsilon^5)的界限。还找到了一类独立策略梯度算法，可在玩家对游戏类型无感知的情况下，实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。实验证明了理论成果的优点和有效性。