小红花·文摘

文章讨论了从人类视频中学习机器人操作技能的挑战与进展。传统方法面临动作信息不足和人机差异问题。研究者通过无监督图像翻译和关键点检测改善学习效果，介绍了如Learning by Watching、DexMV等研究，利用视觉语言模型提升机器人模仿学习的准确性和实用性。

基于人类视频的模仿学习与VLM推理规划：从DexMV、MimicPlay、SeeDo到人形OKAMI、Harmon(含R3M的详解)

结构之法算法之道 ·

本研究使用多样化人类视频数据进行训练，探讨了视觉表示对机器人操作任务的高效学习。通过预先训练Ego4D数据集的视觉表示，得到了名为R3M的静态感知模块。R3M在12个模拟机器人操作任务中成功率提高了20%以上。此外，R3M使得Franka Emika Panda手臂在真实环境中仅使用20个演示就能学习一系列操作任务。

R+X: 从日常人类视频中检索和执行

BriefGPT - AI 论文速递 ·