本研究使用多样化人类视频数据进行训练,探讨了视觉表示对机器人操作任务的高效学习。通过预先训练Ego4D数据集的视觉表示,得到了名为R3M的静态感知模块。R3M在12个模拟机器人操作任务中成功率提高了20%以上。此外,R3M使得Franka Emika Panda手臂在真实环境中仅使用20个演示就能学习一系列操作任务。
完成下面两步后,将自动完成登录并继续当前操作。