蒙特卡罗树搜索中经过状态占用正则化的可证明高效长期探索
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的搜索算法。通过新颖的行动价值规范机制、虚拟损失函数和自我对弈逐代训练的策略网络,提高了搜索算法的效果。实验结果表明该算法在同类游戏 SameGame 上优于基准算法,并与公共状态搜索问题的最新算法竞争力相当。
🎯
关键要点
- 提出了一种结合 Monte-Carlo Tree Search 和深度强化学习的搜索算法。
- 使用新颖的行动价值规范机制解决潜在无限奖励问题。
- 定义虚拟损失函数以实现有效的搜索并行化。
- 通过自我对弈逐代训练的策略网络来引导搜索。
- 实验结果显示该算法在 SameGame 游戏中优于基准算法。
- 该算法与公共状态搜索问题的最新算法具有相当的竞争力。
➡️