蒙特卡罗树搜索中经过状态占用正则化的可证明高效长期探索

基于状态占用度测量规范化的策略优化导出了一种树搜索算法 Volume-MCTS，通过测试发现其在机器人导航问题中表现出优于 AlphaZero 和更好的长视野探索性能。

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的搜索算法。通过新颖的行动价值规范机制、虚拟损失函数和自我对弈逐代训练的策略网络，提高了搜索算法的效果。实验结果表明该算法在同类游戏 SameGame 上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。