小红花·文摘

该研究使用Feudal HRL算法，通过紧密的表示发现目标表示的发展机制，并同时学习目标表示和分层策略。在复杂的导航任务上评估，结果表明所学到的表示是可解释的、可传递的，并且可以实现高效的学习。