小红花·文摘 - 小红花技术领袖俱乐部

朱玉可团队新作：看一眼就能模仿，大模型让机器人轻松学会撒盐

朱玉可团队新作：看一眼就能模仿，大模型让机器人轻松学会撒盐

机器之心 ·

在10月23日的长沙程序员节开幕式上，开发者被邀请来长沙工作与创业。文章介绍了改进的3D扩散策略iDP3和OKAMI人形机器人，后者通过单个RGB视频模仿人类操作，并结合视觉模型识别物体，提升在不同环境中的操作能力。

斯坦福iDP3——改进3D扩散策略以赋能人形机器人的训练：不再依赖相机校准和点云分割(含DP3的详解)

结构之法算法之道 ·

文章讨论了从人类视频中学习机器人操作技能的挑战与进展。传统方法面临动作信息不足和人机差异问题。研究者通过无监督图像翻译和关键点检测改善学习效果，介绍了如Learning by Watching、DexMV等研究，利用视觉语言模型提升机器人模仿学习的准确性和实用性。

基于人类视频的模仿学习与VLM推理规划：从DexMV、MimicPlay、SeeDo到人形OKAMI、Harmon(含R3M的详解)

结构之法算法之道 ·

本文介绍了一种视觉模仿学习方法，机器人通过人类演示学习操作任务，无需先前知识。该方法将模仿学习视为状态估计问题，利用自监督训练和摄像头自动移动，能够从单个人类演示中学习多样技能，生成稳定的控制器。

OKAMI：通过单个视频模仿教导类人机器人操作技能

BriefGPT - AI 论文速递 ·