学习具有未知图内核的正则化图均场博弈

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该文介绍了一种用于图形平均场博弈算法的强化学习算法,旨在学习当图形值未知时的正则化纳什均衡。该算法通过邻近策略优化和分布的核嵌入来估计转移核、奖励函数和图形值,并证明了其收敛速度。

🎯

关键要点

  • 该文介绍了一种用于图形平均场博弈算法的强化学习算法。
  • 算法旨在学习当图形值未知时的正则化纳什均衡。
  • 提出了邻近策略优化(GMFG-PPO)算法,收敛速度为O(T^{-1/3})。
  • 利用分布的核嵌入设计了高效算法来估计转移核、奖励函数和图形值。
  • 推导了智能体位置已知或未知时的收敛速度。
  • 提供了GMFG-PPO优化算法和估计算法的组合结果。
  • 这些算法是首个专门用于从采样智能体中学习图形值的算法。
  • 通过模拟验证了算法的有效性,表明学习未知的图形值能够有效减少可利用性。
➡️

继续阅读