小红花·文摘

本文提出了一种新颖的层次强化学习框架LGR2，通过语言指令生成稳定的奖励函数，解决机器人控制任务中的非稳态问题。在稀疏奖励环境中，该方法成功率超过70%，并展现出良好的泛化能力。