PI发布的Human to Robot数采工作——头戴iPhone且手戴两相机采集数据:混合数据中像“用机器人数据一样”用人类数据,而无需显式对齐
📝
内容提要
摘要:本文探讨如何利用人类视频数据训练通用机器人策略,提出通过多样化VLA预训练实现人机动作自然对齐的方法。研究发现,随着预训练数据多样性的提升,模型能形成与具身形式无关的表征,实现跨形体技能迁移。具体方案包括:采用头戴/腕部摄像机采集人类动作数据,通过3D手部轨迹预测末端执行器动作,结合子任务语言标注进行联合训练。相比传统需要显式对齐的方法,该方案更具通用性,为具身智能的工业落地提供了新思...
➡️