预测者:从像素到时间抽象的树搜索规划
原文中文,约300字,阅读约需1分钟。发表于: 。Forecaster 是一种深度分层强化学习方法,通过对抽象层次的状态转换动态建模和训练世界模型,在高维状态空间(如像素)等复杂环境中规划高层次目标,并通过树搜索规划程序选择最优高层次目标,从而捕捉建立具有较长时间跨度的世界模型和在下游任务中规划使用这些模型的潜力。在 AntMaze 领域中的单任务学习和新任务泛化方面,我们通过实验证明了 Forecaster 的潜力。
PiZero是一种新的规划方法,能够在自主创建的抽象搜索空间中进行高层规划,并以复合或时间扩展的动作形式进行推理。该方法比之前的方法更通用,可以处理具有连续动作空间和部分可观察性的设置。在多个领域的评估中,PiZero方法优于可比较的之前方法,且无需假设访问环境模拟器。