本文提出了一种基于高斯过程的概率子目标表示方法,通过学习先验规划步骤中的长程子目标信息来适应不确定性。同时,还提出了一种新的学习目标,以实现概率子目标表示和策略的同时学习。实验结果表明,该方法在标准测试和具有随机因素和多样化奖励条件的环境中优于最先进的基准,并且在不同任务之间转移低层策略具有良好的性能。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: