蒙特卡罗树搜索中经过状态占用正则化的可证明高效长期探索

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的搜索算法。通过新颖的行动价值规范机制、虚拟损失函数和自我对弈逐代训练的策略网络,提高了搜索算法的效果。实验结果表明该算法在同类游戏 SameGame 上优于基准算法,并与公共状态搜索问题的最新算法竞争力相当。

🎯

关键要点

  • 提出了一种结合 Monte-Carlo Tree Search 和深度强化学习的搜索算法。
  • 使用新颖的行动价值规范机制解决潜在无限奖励问题。
  • 定义虚拟损失函数以实现有效的搜索并行化。
  • 通过自我对弈逐代训练的策略网络来引导搜索。
  • 实验结果显示该算法在 SameGame 游戏中优于基准算法。
  • 该算法与公共状态搜索问题的最新算法具有相当的竞争力。
➡️

继续阅读