蒙特卡罗树搜索中经过状态占用正则化的可证明高效长期探索

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的搜索算法。通过新颖的行动价值规范机制、虚拟损失函数和自我对弈逐代训练的策略网络,提高了搜索算法的效果。实验结果表明该算法在同类游戏 SameGame 上优于基准算法,并与公共状态搜索问题的最新算法竞争力相当。

原文中文,约300字,阅读约需1分钟。
阅读原文