本文介绍了HDMI(人类模仿交互)框架,该框架通过RGB视频学习人类与物体的交互技能,并利用强化学习训练人形机器人实现复杂的全身交互能力。研究表明HDMI在真实世界任务中表现出良好的稳健性和灵活性,尤其在行走与物体交互方面。尽管取得了进展,HDMI仍依赖于动作捕捉数据,未来需开发基于传感器的自主学习策略。
本研究探讨了人类视觉在行为理解中的作用,提出了一种基于行为接触建模的方法,并设计了行为预测框架。通过分析人类视频数据,研究机器人如何学习与未知对象的交互技能,实现零样本操作。引入新数据集HandDiffuse12.5M和生成方法,提升手部姿势生成的质量和控制能力。此外,提出了Diff-IP2D和视觉-运动策略学习框架,优化手物交互预测和机器人控制。
完成下面两步后,将自动完成登录并继续当前操作。