从外部到 Swap Regret 2.0:大动作空间的高效减少和无视敌对

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

该文提出了一种新的约简方法,从交换后悔最小化到外部后悔最小化,改进了经典约简方法,不需要动作空间的有限性。该方法可以保证交换后悔受到约束,且具有相关的下界。该约简方法提供了存在相关均衡的充分条件,回答了一些未解决问题。

🎯

关键要点

  • 提出了一种新的约简方法,从交换后悔最小化到外部后悔最小化。
  • 该方法改进了经典的Blum-Mansour和Stolz-Lugosi约简,不需要动作空间的有限性。
  • 只要存在某个假设类的无外部后悔算法,就必然存在该类别的无交换后悔算法。
  • 在log(N)^{O(1/ε)}轮迭代中,每次迭代复杂度为O(N),可以保证交换后悔受到ε的约束。
  • 经典约简需要O(N/ε^2)轮迭代和至少Ω(N^2)的复杂度。
  • 提供了一个相关的下界,适用于具有遗忘性和限制的对手和学习者。
  • 如果在某个游戏中可以进行无后悔学习,该游戏必须具有近似的相关均衡。
  • 提供了存在相关均衡的充分条件,扩展了行动集有限的要求。
  • 回答了关于均衡计算和/或游戏学习的几个未解决问题。
➡️

继续阅读