Predicting Through Action: Learning Visual Strategies via Joint Denoising Process
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出PAD框架,通过扩散变换器统一图像预测与机器人动作生成,显著提升机器人控制性能和泛化能力。
🎯
关键要点
- 本研究提出PAD框架,解决了图像预测与机器人动作生成之间的差距。
- PAD框架将图像预测与机器人行动统一于一个共同的去噪过程中。
- 使用扩散变换器,PAD能够同时预测未来图像和机器人动作。
- 显著提高了机器人控制任务的性能。
- 在真实场景中展现出强大的泛化能力。
➡️