本文介绍了一种新的基于模型的强化学习方法,结合背景规划和子目标模型,显著提升了学习效率。实验结果表明,该方法在机器人导航和操作任务中优于传统方法,有效解决了高内存和计算使用率的问题。
完成下面两步后,将自动完成登录并继续当前操作。