基于贝叶斯的在线规划
原文中文,约400字,阅读约需1分钟。发表于: 。蒙特卡洛树搜索和神经网络的结合彻底改变了在线规划。我们提出了一种贝叶斯规划方法,通过经典元推理文献中的思想,利用神经网络输出的不确定性估计来改善规划。我们在可能行动的树中提出了一种基于汤普森抽样的搜索算法,并证明了有限时间的贝叶斯后悔上界,同时提出了适用于树的 Bayes-UCB 方法的变体。实验证明,在 ProcGen Maze 和 Leaper...
蒙特卡洛树搜索和神经网络的结合改善了在线规划。提出了一种贝叶斯规划方法,利用神经网络输出的不确定性估计来改善规划。实验证明,在某些环境中,贝叶斯方法更有效。同时调查了不确定性估计方法的准确性和规划收益。