该文提出了一种新的复杂度度量,用于多智能体强化学习在一般和马尔可夫博弈下的情况。通过算法框架,可以在低复杂度下保证在模型为基础和模型无关的MARL问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。算法结合了一个均衡求解器和一个单一目标优化次程序,更适合于实证实现。
完成下面两步后,将自动完成登录并继续当前操作。