马尔可夫潜在博弈的独立策略镜像下降:扩展到大数量玩家

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文研究了多智能体强化学习中策略梯度方法的全局非渐进收敛性质,提出了新的独立策略梯度算法,并证明了其达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2),同时建立了样本复杂度为O(1/epsilon^5)的界限。还找到了一类独立策略梯度算法,可在玩家对游戏类型无感知的情况下,实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。实验证明了理论成果的优点和有效性。

原文中文,约300字,阅读约需1分钟。
阅读原文