弱可达情况下的零和马尔可夫博弈纳什均衡学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

通过Tsallis熵正则化的值迭代方法,提出了一种高效实现近似纳什均衡的算法。该算法在弱条件下以无耦合和单时间尺度算法的方式工作,仅需要一个诱导不可约和非周期性马尔可夫链的策略对。分析利用了负漂移不等式和Tsallis熵的新特性。

🎯

关键要点

  • 通过Tsallis熵正则化的值迭代方法提出了一种高效算法。
  • 该算法在弱条件下以无耦合和单时间尺度的方式工作。
  • 算法仅需一个诱导不可约和非周期性马尔可夫链的策略对。
  • 算法在多项式时间内学习近似纳什均衡,减弱了过去的假设。
  • 分析利用了负漂移不等式和Tsallis熵的新特性,具有独立的研究价值。
➡️

继续阅读