超越对称零和游戏的神经人口学习
我们研究了在n个玩家一般和游戏中寻找均衡的计算方法,特别是适用于复杂的视觉运动技能。我们介绍了NeuPL-JPSRO算法,通过技能的迁移学习,并最终收敛于游戏的粗糙相关均衡。我们在一系列OpenSpiel游戏中展示了实证的收敛性,并经由精确的游戏求解器严格验证。我们将NeuPL-JPSRO应用于复杂领域,在MuJoCo控制领域实现了自适应协调和技能迁移。我们的工作表明,收敛于均衡的人口学习可以在规模上和广泛性上实施,为解决异质玩家和混合动机的现实世界游戏铺平了道路。
原文中文,约400字,阅读约需1分钟。