量化马尔可夫决策过程的 Q 学习:分解、性能与收敛分析

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种强化学习算法,旨在通过降低多智能体马尔可夫决策过程中的时间平均成本来解决问题。该算法结合了Q-learning和加权成本组合,利用传闻算法调制平均矩阵,并在温和条件下近似实现期望界限。

🎯

关键要点

  • 提出了一种强化学习算法,旨在解决多智能体马尔可夫决策过程(MMDP)。
  • 目标是将每个智能体的时间平均成本降低到预先指定的特定界限以下。
  • 算法结合了Q-learning和加权成本组合,利用传闻算法调制平均矩阵。
  • 使用多个时间尺度的算法,证明在温和条件下近似实现每个智能体的期望界限。
  • 展示了该算法在具有联合控制的每个阶段成本的更一般的MMDP设置中的实证性能。
➡️

继续阅读