5*5 多人围棋的深度强化学习
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了一种名为组合 Q 学习的新方法,用于亚洲纸牌游戏斗地主。通过两阶段网络和池化操作,该方法能够提取基本行动之间的关系。实验结果表明,该方法优于传统的 Q 学习和 A3C 算法,并使用对抗训练方法训练出了可与人类媲美的代理。
🎯
关键要点
- 研究了一种特殊的亚洲纸牌游戏斗地主。
- 提出了一种名为组合 Q 学习的新方法。
- 该方法利用两阶段网络和池化操作提取基本行动之间的关系。
- 实验结果表明该方法优于传统的 Q 学习和 A3C 算法。
- 使用对抗训练方法训练出了可与人类媲美的代理。
➡️