基于扩散导向的日常手 - 物交互重建剪辑

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该文介绍了一种通过手物体交互的重建任务来进行短视频剪辑的3D推断的方法。作者使用通用的数据驱动先验来引导重建过程中的多视角信号,并在6个物体类别的自我中心视频上进行了实证评估。结果显示,该方法相较于先前的单视角和多视角方法有显著的改进。最后,作者展示了他们的系统能够从YouTube中重建任意剪辑,展示了第一人称和第三人称的交互。

🎯

关键要点

  • 该文介绍了一种通过手物体交互的重建任务进行短视频剪辑的3D推断方法。

  • 方法将3D推断视为每个视频的优化,恢复物体形状的神经3D表示及时间变化的动作和手关节。

  • 输入视频提供了一些多视角线索,但由于遮挡和有限的视角变化,这些线索不足以获得准确的3D结果。

  • 使用通用的数据驱动先验来引导重建过程中的多视角信号。

  • 学习了一个扩散网络,建模基于手配置和类别标签的对象几何渲染的条件分布。

  • 在6个物体类别的自我中心视频上进行了实证评估,结果显示显著改进。

  • 系统能够从YouTube中重建任意剪辑,展示第一人称和第三人称的交互。

➡️

继续阅读