概率子目标表示的分层强化学习

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文提出了一种基于高斯过程的概率子目标表示方法,通过学习先验规划步骤中的长程子目标信息来适应不确定性。同时,还提出了一种新的学习目标,以实现概率子目标表示和策略的同时学习。实验结果表明,该方法在标准测试和具有随机因素和多样化奖励条件的环境中优于最先进的基准,并且在不同任务之间转移低层策略具有良好的性能。

原文中文,约400字,阅读约需1分钟。
阅读原文