多智能体 MDPs 中的自适应对手策略检测:利用运行误差估计的实时策略切换识别
原文中文,约500字,阅读约需1分钟。发表于: 。在多智能体强化学习中,准确地感知对手策略对于合作和对抗环境都是必不可少的,本文提出了一种在线算法 OPS-DeMo,通过使用动态误差衰减来检测对手策略的变化,并在多智能体环境中将 PPO 算法更有效地应用于对策略的训练,相较于 PPO,在动态情景下表现更出色,提供更强的鲁棒性和更准确的对手策略洞察。
该论文介绍了一种扩展的 Mirror Descent 方法,用于克服合作多智能体强化学习设置中的挑战。提出的 Heterogeneous-Agent Mirror Descent Policy Optimization 算法通过解决信任域问题的近似解来迭代更新智能体策略,保证了稳定性并提高了性能。HAMDPO 在 Multi-Agent MuJoCo 和 StarCraftII 任务上的评估结果表明其优越性,是解决合作 MARL 问题的一种有希望的方法。