Predicting Through Action: Learning Visual Strategies via Joint Denoising Process
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出PAD框架,通过扩散变换器统一图像预测与机器人动作生成,显著提升机器人控制性能和泛化能力。
🎯
关键要点
-
本研究提出PAD框架,解决了图像预测与机器人动作生成之间的差距。
-
PAD框架将图像预测与机器人行动统一于一个共同的去噪过程中。
-
使用扩散变换器,PAD能够同时预测未来图像和机器人动作。
-
显著提高了机器人控制任务的性能。
-
在真实场景中展现出强大的泛化能力。
🏷️