遗憾匹配算法在博弈中的最后迭代收敛性质
原文中文,约400字,阅读约需1分钟。发表于: 。研究了基于遗憾匹配(RM+)及其变种的算法在求解大规模两人零和博弈中的最优策略时的迭代收敛性,并通过数值实验证明了部分实际变种算法在简单的 3×3 游戏中无法保证迭代收敛。进一步证明了基于平滑技术的最新变种算法,如 extragradient RM+ 和 smooth Predictive RM+ 在最优策略上存在渐进收敛以及 1/√t...
该研究探讨了基于遗憾匹配算法在求解两人零和博弈中的最优策略时的迭代收敛性,并验证了部分实际变种算法在简单的3×3游戏中无法保证迭代收敛。研究还证明了最新变种算法在最优策略上存在渐进收敛以及1/√t的最优策略收敛,并引入了重启变种算法,证明它们在最优策略上可达到线性级别的收敛速度。