ReLExS：用于Stackelberg无悔学习者的强化学习解释

本研究解决了在无悔追随者约束下，两人Stackelberg博弈中玩家能否达到Stackelberg均衡的问题。我们提出了当追随者策略为奖励平均或变换奖励平均时，两位玩家总能实现均衡，并进一步证明无悔约束下的均衡与追随者效用差异的严格上限。这表明在常和两人Stackelberg博弈中，保持无悔行动序列可以维持总最优效用的边界。

本研究开发了一种强化学习算法，用于解决追随者为短视的多人普遍和马尔可夫博弈，实现Stackelberg-Nash均衡。该算法在大状态空间中应用简单，并在在线和离线设置下证明了亚线性遗憾和亚最优性。这是第一个高效解决追随者为短视的普遍和马尔可夫博弈的强化学习算法。