本文提出了一种新的层次强化学习方法,结合无模型子目标发现和内在动机学习,以提高稀疏奖励环境中的学习效率。该方法在复杂导航任务中表现优异,能够有效发现和利用子目标,优化学习过程。实验结果表明,该方法在连续控制任务中显著优于现有算法。
完成下面两步后,将自动完成登录并继续当前操作。