小红花·文摘

本文研究了多智能体强化学习（MARL）在马尔可夫博弈中的应用，提出了多智能体解耦系数（MADC）作为新的复杂度度量，并基于此提出了一个统一的算法框架，以确保在低MADC情况下有效学习纳什均衡。该算法结合均衡求解器和优化次程序，避免了复杂的约束优化问题，适合实证实现。