小红花·文摘

该论文介绍了一种扩展的 Mirror Descent 方法，用于克服合作多智能体强化学习设置中的挑战。提出的 Heterogeneous-Agent Mirror Descent Policy Optimization 算法通过解决信任域问题的近似解来迭代更新智能体策略，保证了稳定性并提高了性能。HAMDPO 在 Multi-Agent MuJoCo 和 StarCraftII 任务上的评估结果表明其优越性，是解决合作 MARL 问题的一种有希望的方法。