小红花·文摘

本研究使用多样化人类视频数据进行训练，探讨了视觉表示对机器人操作任务的高效学习。通过预先训练Ego4D数据集的视觉表示，得到了名为R3M的静态感知模块。R3M在12个模拟机器人操作任务中成功率提高了20%以上。此外，R3M使得Franka Emika Panda手臂在真实环境中仅使用20个演示就能学习一系列操作任务。