这篇文章介绍了一种基于奖励模型的框架,让机器学习代理通过学习语言指令执行任务,无需修改环境奖励函数。方法在简单的网格世界中使代理能够学习块的交互和空间关系指令,并适应环境变化。
完成下面两步后,将自动完成登录并继续当前操作。