为物体操作的生成世界模型中表示位置性信息

本研究解决了当前生成世界模型在物体操作任务中位置性信息表示不足的问题。通过引入位置条件（PCP）和潜在条件（LCP）策略学习的方法，我们提出了一种新的方式，以提高代理在物体定位任务中的表现。实验结果显示，所提方法在多个操作环境中表现优越，推动了物体操作的多模态能力发展。

该论文提出了一种视觉-运动策略学习框架，通过人类示范对视频扩散模型进行微调，使用合成的执行结果来控制机器人，弥合人手和机器人操作者之间的具身隔阂。通过四个任务的评估，证明了利用互联网规模的生成模型可以实现更高程度的泛化。