本研究提出了一种层次化强化学习方法,通过专家提供的抽象动态规划生成子目标,以提高复杂多任务环境中的决策效率。实验证明,该方法在样本效率、任务完成率和新场景泛化能力上优于现有方法,具有重要影响。
完成下面两步后,将自动完成登录并继续当前操作。