为了解决非传递性的零和游戏问题,该研究提出了一种名为 Fusion-PSRO 的方法,通过模型融合初始化策略,以更好逼近最佳反应策略,并在非传递性矩阵游戏和复杂 Liars Dice 等实验中验证了其在提高几乎所有 PSRO 变体性能方面的有效性。
PSRO是一种用于学习多智能体系统中的策略的通用算法框架,通过将经验博弈分析与深度强化学习相互交错,每次迭代中使用深度强化学习来训练最佳响应,从而减少了模拟调整所需的计算量。Mixed-Oracles和Mixed-Opponents是PSRO的两种变体,能够减少Deep RL训练期间需要的模拟量,同时产生与游戏等价或更好的解决方案。
完成下面两步后,将自动完成登录并继续当前操作。