小红花·文摘

本文提出了一种名为组合 Q 学习的新方法，用于亚洲纸牌游戏斗地主。通过两阶段网络和池化操作，该方法能够提取基本行动之间的关系。实验结果表明，该方法优于传统的 Q 学习和 A3C 算法，并使用对抗训练方法训练出了可与人类媲美的代理。