概率子目标表示的分层强化学习

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于高斯过程的概率子目标表示方法,通过学习先验规划步骤中的长程子目标信息来适应不确定性。同时,还提出了一种新的学习目标,以实现概率子目标表示和策略的同时学习。实验结果表明,该方法在标准测试和具有随机因素和多样化奖励条件的环境中优于最先进的基准,并且在不同任务之间转移低层策略具有良好的性能。

🎯

关键要点

  • 提出了一种基于高斯过程的概率子目标表示方法。
  • 通过可学习的核函数利用状态空间的长程相关性来学习长程子目标信息。
  • 该方法旨在适应不确定性。
  • 提出了一种新的学习目标,实现概率子目标表示和策略的同时学习。
  • 实验结果显示该方法在标准测试中优于最先进的基准。
  • 在具有随机因素和多样化奖励条件的环境中表现良好。
  • 模型在不同任务之间转移低层策略具有良好的性能。
➡️

继续阅读