小红花·文摘

该研究发现合作多智能体强化学习中的价值分解和参数共享可能导致问题和不良结果，而个体策略的策略梯度方法在这些情况下表现良好。研究提出实用建议，并在多个领域进行了实证验证，有助于开发更强大的多智能体强化学习算法。