该论文提出了一种视觉-运动策略学习框架,通过微调视频扩散模型来学习任务执行,以弥合人机操作者之间的隔阂。通过评估四个任务,证明了利用互联网规模的生成模型可以实现更高程度的泛化。
该论文提出了一种视觉-运动策略学习框架,通过微调视频扩散模型来学习任务执行,以弥合人机之间的具身隔阂。通过评估四个任务,证明了利用互联网规模的生成模型可以实现更高程度的泛化。
完成下面两步后,将自动完成登录并继续当前操作。