本文提出了一种新的多智能体强化学习方法,利用智能体之间的DAG结构提高学习性能,并通过合成奖励的MARL模型证明其作为最优值函数的下限。实证测试表明该方法在四个DAG环境中优于其他非DAG方法。
完成下面两步后,将自动完成登录并继续当前操作。