小红花·文摘

该论文扩展了“语言世界”基准，支持在模拟机器人环境中使用自然语言进行查询和脚本技能。通过与元世界任务集的比较，展示了大型语言模型与深度强化学习方法的差异。提出的“计划条件行为克隆”方法能够通过端到端演示优化高级计划，通常只需一个演示即可实现任务泛化。