遗憾匹配算法在博弈中的最后迭代收敛性质

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究探讨了基于遗憾匹配算法在求解两人零和博弈中的最优策略时的迭代收敛性,并验证了部分实际变种算法在简单的3×3游戏中无法保证迭代收敛。研究还证明了最新变种算法在最优策略上存在渐进收敛以及1/√t的最优策略收敛,并引入了重启变种算法,证明它们在最优策略上可达到线性级别的收敛速度。

🎯

关键要点

  • 研究探讨了基于遗憾匹配算法在两人零和博弈中的最优策略迭代收敛性。
  • 部分实际变种算法在简单的3×3游戏中无法保证迭代收敛。
  • 最新变种算法如extragradient RM+和smooth Predictive RM+在最优策略上存在渐进收敛。
  • 证明了1/√t的最优策略收敛。
  • 引入重启变种算法,证明其在最优策略上可达到线性级别的收敛速度。
➡️

继续阅读