该文介绍了 QFree 方法,一种基于优势函数的 MARL 通用价值函数分解方法,使用混合网络结构满足等价分解,并将等价条件作为正则化项开发了一种新型损失函数。在非单调矩阵博弈场景和 SMAC 等复杂 MARL 基准环境中验证了该方法的有效性,并展示了其在性能方面达到了最新水平。
完成下面两步后,将自动完成登录并继续当前操作。