弱可达情况下的零和马尔可夫博弈纳什均衡学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
通过Tsallis熵正则化的值迭代方法,提出了一种高效实现近似纳什均衡的算法。该算法在弱条件下以无耦合和单时间尺度算法的方式工作,仅需要一个诱导不可约和非周期性马尔可夫链的策略对。分析利用了负漂移不等式和Tsallis熵的新特性。
🎯
关键要点
- 通过Tsallis熵正则化的值迭代方法提出了一种高效算法。
- 该算法在弱条件下以无耦合和单时间尺度的方式工作。
- 算法仅需一个诱导不可约和非周期性马尔可夫链的策略对。
- 算法在多项式时间内学习近似纳什均衡,减弱了过去的假设。
- 分析利用了负漂移不等式和Tsallis熵的新特性,具有独立的研究价值。
➡️