虚构交互：混合合作竞争游戏中全局纳什平衡的学习

该研究开发了一种新算法，名为 Fictitious Cross-Play（FXP），同时训练了基于自我博弈和交叉博弈的主策略和反应策略，并在矩阵游戏中证明了 FXP 能够收敛到全局纳什均衡点，而自我博弈方法则无法达到。

PSRO是一种用于学习多智能体系统中的策略的通用算法框架，通过将经验博弈分析与深度强化学习相互交错，每次迭代中使用深度强化学习来训练最佳响应，从而减少了模拟调整所需的计算量。Mixed-Oracles和Mixed-Opponents是PSRO的两种变体，能够减少Deep RL训练期间需要的模拟量，同时产生与游戏等价或更好的解决方案。

Mixed-Opponents Mixed-Oracles PSRO 多智能体系统深度强化学习游戏