关于 UCT、AlphaGo 及其变种的超指数遗憾
原文中文,约300字,阅读约需1分钟。发表于: 。改进 Coquelin 和 Munos(2007)的证明,证明了在 D 链环境上,UCT 算法可能导致指数级(D 的指数次)的遗憾,且具有与指数 2 的指数 2 减去 O (log D) 成正比的多项式的 UCT 变体在相同环境上也可能导致这种遗憾,此外还使用证明方法对 AlphaGo 的 MCTS 及其后继算法(如 AlphaZero,Leela Zero)演示了相同的遗憾程度。
本文改进了Coquelin和Munos(2007)的证明,证明了在D链环境上,UCT算法可能导致指数级的遗憾。同时使用证明方法对AlphaGo的MCTS及其后继算法演示了相同的遗憾程度。