高效的样本有效的多智能体强化学习:优化视角
原文中文,约500字,阅读约需2分钟。发表于: 。我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量,即多智能体解耦系数 (MADC),我们旨在找到基于样本高效学习的最小假设。利用该度量,我们提出了首个统一的算法框架,可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL...
该文提出了一种新的复杂度度量,用于多智能体强化学习在一般和马尔可夫博弈下的情况。通过算法框架,可以在低复杂度下保证在模型为基础和模型无关的MARL问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。算法结合了一个均衡求解器和一个单一目标优化次程序,更适合于实证实现。