本文提出了一种名为组合 Q 学习的新方法,用于亚洲纸牌游戏斗地主。通过两阶段网络和池化操作,该方法能够提取基本行动之间的关系。实验结果表明,该方法优于传统的 Q 学习和 A3C 算法,并使用对抗训练方法训练出了可与人类媲美的代理。
完成下面两步后,将自动完成登录并继续当前操作。