合作智能体的政策多样性
原文中文,约300字,阅读约需1分钟。发表于: 。标准的多智能体强化学习方法旨在找到完成任务的最优团队合作策略。然而,在不同的合作方式中可能存在多种选择,这往往极大地增加了领域专家的任务复杂性。因此,我们提出了一种名为 Moment-Matching Policy Diversity...
本文介绍了Moment-Matching Policy Diversity方法,用于解决多智能体强化学习中的合作策略选择问题。该方法通过形式化不同策略所选智能体的行为差异来生成不同的团队策略,并通过最大均值差异实现约束优化问题的简单方式。该方法在一个基于团队的射击游戏中得到了验证。