层次强化学习中的目标空间抽象通过基于集合的可达性分析

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究使用Feudal HRL算法,通过紧密的表示发现目标表示的发展机制,并同时学习目标表示和分层策略。在复杂的导航任务上评估,结果表明所学到的表示是可解释的、可传递的,并且可以实现高效的学习。

🎯

关键要点

  • 研究提出了一种通过紧密的表示发现目标表示的发展机制。
  • 该机制能够将具有类似任务角色的环境状态集合进行抽象。
  • 引入了Feudal HRL算法,该算法同时学习目标表示和分层策略。
  • 算法使用神经网络的符号可达性分析来近似状态集合之间的转变关系。
  • 在复杂的导航任务上评估了该方法,结果显示所学到的表示是可解释的、可传递的,并且可以实现高效的学习。
➡️

继续阅读