基于分布式 Q 学习的多智能体马尔可夫决策过程和满足性准则
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种强化学习算法来解决多智能体马尔可夫决策过程(MMDP),通过黑韦尔的可接近性定理,目标是将每个智能体的时间平均成本降低到预先指定的特定界限以下。该算法在Q-learning算法中结合了每个智能体成本的加权组合,并使用了多个时间尺度的算法。实证结果表明,在具有联合控制的每个阶段成本的更一般的MMDP设置中,该算法表现良好。
🎯
关键要点
-
提出了一种强化学习算法来解决多智能体马尔可夫决策过程 (MMDP)。
-
目标是将每个智能体的时间平均成本降低到预先指定的特定界限以下。
-
算法结合了每个智能体成本的加权组合,并使用了多个时间尺度的算法。
-
成本通过具有 Metropolis-Hastings 或乘法权重形式的传闻算法来调制传闻的平均矩阵。
-
在温和条件下,算法近似实现了每个智能体的期望界限。
-
在具有联合控制的每个阶段成本的更一般的 MMDP 设置中,算法表现良好。
➡️