超越对称零和游戏的神经人口学习
原文中文,约400字,阅读约需1分钟。发表于: 。我们研究了在 n 个玩家一般和游戏中寻找均衡的计算方法,特别是适用于复杂的视觉运动技能。我们展示了现有方法在此场景下要么计算上困难,要么在理论上受限。接着,我们介绍了 NeuPL-JPSRO 算法,一种神经人口学习算法,通过技能的迁移学习,并最终收敛于游戏的粗糙相关均衡 (CCE)。我们在一系列 OpenSpiel 游戏中展示了实证的收敛性,并经由精确的游戏求解器严格验证。然后,我们将...
我们研究了在n个玩家一般和游戏中寻找均衡的计算方法,特别是适用于复杂的视觉运动技能。我们介绍了NeuPL-JPSRO算法,通过技能的迁移学习,并最终收敛于游戏的粗糙相关均衡。我们在一系列OpenSpiel游戏中展示了实证的收敛性,并经由精确的游戏求解器严格验证。我们将NeuPL-JPSRO应用于复杂领域,在MuJoCo控制领域实现了自适应协调和技能迁移。我们的工作表明,收敛于均衡的人口学习可以在规模上和广泛性上实施,为解决异质玩家和混合动机的现实世界游戏铺平了道路。