凸马尔可夫博弈:多智能体学习中的公平性、模仿和创造性框架

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文研究了策略梯度方法在多智能体强化学习中的收敛性,提出了一种新的独立策略梯度算法,证明其达到epsilon-Nash平衡的复杂度为O(1/epsilon^2),样本复杂度界限为O(1/epsilon^5)。实验验证了理论结果的有效性。

原文中文,约300字,阅读约需1分钟。
阅读原文