ROAM:使用神经姿态描述符的鲁棒且对象感知的运动生成
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种基于深度学习的无监督视频分解方法,可以将视频分解为三维几何、运动物体和它们的运动。通过训练深度网络来预测姿态和深度,最小化合成图像与真实图像之间的误差。该方法在KITTI和EPIC-Kitchens上表现出竞争力的性能。
🎯
关键要点
- 该研究提出了一种基于深度学习的无监督视频分解方法。
- 视频可以分解为三维几何、运动物体及其运动。
- 通过最小化合成图像与真实图像之间的误差进行训练。
- 深度网络可以无监督地预测姿态和深度。
- 在图像的小区域内预测不同的姿态,实现6D物体运动的丰富模型。
- 该方法在KITTI上表现出竞争力的无监督里程计和深度预测性能。
- 在EPIC-Kitchens上实现了自动恢复深度、里程、对象分割或运动的新能力。
➡️