德克萨斯大学与NVIDIA研究团队提出的OKAMI方法,利用单个RGB-D视频教人形机器人模仿操作。该方法通过两阶段处理生成参考规划并适应物体位置,成功完成撒盐和放玩具等任务。OKAMI展示了在不同环境下的泛化能力,但下半身运动和形状变化适应性仍需改进。
在10月23日的长沙程序员节开幕式上,开发者被邀请来长沙工作与创业。文章介绍了改进的3D扩散策略iDP3和OKAMI人形机器人,后者通过单个RGB视频模仿人类操作,并结合视觉模型识别物体,提升在不同环境中的操作能力。
文章讨论了从人类视频中学习机器人操作技能的挑战与进展。传统方法面临动作信息不足和人机差异问题。研究者通过无监督图像翻译和关键点检测改善学习效果,介绍了如Learning by Watching、DexMV等研究,利用视觉语言模型提升机器人模仿学习的准确性和实用性。
本文介绍了一种视觉模仿学习方法,通过自监督学习从单个人类演示中学习机器人操作。该方法将模仿学习视为状态估计问题,利用末端执行器姿态作为状态。在训练中,摄像头自动围绕对象移动。测试时,机器人沿线性路径移动并重放演示速度,生成复杂交互轨迹。实验表明,该方法能从单次演示中学习多种技能,控制器稳定且可解释。
完成下面两步后,将自动完成登录并继续当前操作。