策略镜像下降与前瞻

提出了一种名为 $h$-PMD 的新型 PMD 算法类，它将多步贪心策略改进与 PMD 更新规则相结合，以解决具有 lookahead 深度 $h$ 的折扣无限时间马尔可夫决策过程，并且拓展到线性函数逼近以适应大状态空间。

该论文介绍了一种扩展的 Mirror Descent 方法，用于克服合作多智能体强化学习设置中的挑战。提出的 HAMDPO 算法通过解决信任域问题的近似解来迭代更新智能体策略，保证了稳定性并提高了性能。HAMDPO 能够处理多样化智能体在各种 MARL 问题中连续和离散的动作空间。在评估中，HAMDPO 在 Multi-Agent MuJoCo 和 StarCraftII 任务上表现优越。该算法是解决合作 MARL 问题的一种有希望的方法，可能还可以扩展到解决 MARL 领域中的其他挑战性问题。