R+X: 从日常人类视频中检索和执行
原文中文,约300字,阅读约需1分钟。发表于: 。R+X 是一个框架,可以使机器人从长期的无标签的第一人称视频中学习人类进行日常任务的技能。通过使用视觉语言模型进行检索和上下文中的模仿学习方法执行技能,R+X 能够将无标签的人类视频转化为稳健的机器人技能,优于最近的几种替代方法。
本研究使用多样化人类视频数据进行训练,探讨了视觉表示对机器人操作任务的高效学习。通过预先训练Ego4D数据集的视觉表示,得到了名为R3M的静态感知模块。R3M在12个模拟机器人操作任务中成功率提高了20%以上。此外,R3M使得Franka Emika Panda手臂在真实环境中仅使用20个演示就能学习一系列操作任务。