小红花·文摘

本文提出了一种新的层次强化学习方法，结合无模型子目标发现和内在动机学习，以提高稀疏奖励环境中的学习效率。该方法在复杂导航任务中表现优异，能够有效发现和利用子目标，优化学习过程。实验结果表明，该方法在连续控制任务中显著优于现有算法。