小红花·文摘

该论文研究了一种分布式强化学习方法，用于实现多智能体马尔可夫决策过程中的网络目标。通过稀疏通信网络上的局部处理和信息交流，实现了代理协作。该分布式方案在几乎确定的情况下，逐渐实现了各个网络层面上的期望值函数和最优静止控制策略。

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

BriefGPT - AI 论文速递 ·

本文提出了一种强化学习算法来解决多智能体马尔可夫决策过程(MMDP)，通过黑韦尔的可接近性定理，目标是将每个智能体的时间平均成本降低到预先指定的特定界限以下。该算法在Q-learning算法中结合了每个智能体成本的加权组合，并使用了多个时间尺度的算法。实证结果表明，在具有联合控制的每个阶段成本的更一般的MMDP设置中，该算法表现良好。

基于分布式 Q 学习的多智能体马尔可夫决策过程和满足性准则

BriefGPT - AI 论文速递 ·