本文提出了一种新颖的层次强化学习框架LGR2,通过语言指令生成稳定的奖励函数,解决机器人控制任务中的非稳态问题。在稀疏奖励环境中,该方法成功率超过70%,并展现出良好的泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。