5*5 多人围棋的深度强化学习

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种名为组合 Q 学习的新方法,用于亚洲纸牌游戏斗地主。通过两阶段网络和池化操作,该方法能够提取基本行动之间的关系。实验结果表明,该方法优于传统的 Q 学习和 A3C 算法,并使用对抗训练方法训练出了可与人类媲美的代理。

🎯

关键要点

  • 研究了一种特殊的亚洲纸牌游戏斗地主。
  • 提出了一种名为组合 Q 学习的新方法。
  • 该方法利用两阶段网络和池化操作提取基本行动之间的关系。
  • 实验结果表明该方法优于传统的 Q 学习和 A3C 算法。
  • 使用对抗训练方法训练出了可与人类媲美的代理。
➡️

继续阅读