小红花·文摘

本文提出了一种新的多智能体强化学习方法，利用智能体之间的DAG结构提高学习性能，并通过合成奖励的MARL模型证明其作为最优值函数的下限。实证测试表明该方法在四个DAG环境中优于其他非DAG方法。