小红花·文摘

这篇文章介绍了一种基于奖励模型的框架，让机器学习代理通过学习语言指令执行任务，无需修改环境奖励函数。方法在简单的网格世界中使代理能够学习块的交互和空间关系指令，并适应环境变化。