虚构交互:混合合作竞争游戏中全局纳什平衡的学习
原文中文,约300字,阅读约需1分钟。发表于: 。该研究开发了一种新算法,名为 Fictitious Cross-Play(FXP),同时训练了基于自我博弈和交叉博弈的主策略和反应策略,并在矩阵游戏中证明了 FXP 能够收敛到全局纳什均衡点,而自我博弈方法则无法达到。
PSRO是一种用于学习多智能体系统中的策略的通用算法框架,通过将经验博弈分析与深度强化学习相互交错,每次迭代中使用深度强化学习来训练最佳响应,从而减少了模拟调整所需的计算量。Mixed-Oracles和Mixed-Opponents是PSRO的两种变体,能够减少Deep RL训练期间需要的模拟量,同时产生与游戏等价或更好的解决方案。