正式 - DAgger 用于 MCTS：使用形式方法的数据聚合实现更低延迟的蒙特卡洛树搜索

我们研究如何高效地结合形式方法、蒙特卡洛树搜索 (Monte Carlo Tree Search，MCTS) 和深度学习，以在大型马尔可夫决策过程 (Markov Decision processes，MDPs) 中生成高质量的滞后视野策略。

本文介绍了一种基于模型的强化学习技术，将Monte-Carlo树搜索应用于无限期Marov决策过程的有限期版本，并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界，并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。

Monte-Carlo树搜索强化学习有限期问题模型深度神经网络