这篇文章介绍了一种利用互联网上训练的视频生成模型实现机器人通用任务规划的方法。作者解决了基于视频的规划中的三个挑战,包括任务沟通、视频生成和将视觉规划转化为机器人动作。他们提出了一种语言手势调节生成视频的方法,并建议一种行为克隆设计,将视频规划与机器人动作结合。这项研究展示了最先进的效果,并证明了使用视频生成作为通用任务规划和执行的中间表示的合理性。
完成下面两步后,将自动完成登录并继续当前操作。