BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

基于扩散导向的日常手 - 物交互重建剪辑

我们通过对短视频剪辑进行手物体交互的重建任务。以输入视频为基础,我们的方法将 3D 推断视为每个视频的优化,并恢复物体形状的神经 3D 表示,以及时间变化的动作和手关节。尽管输入视频自然地提供了一些多视角线索来指导 3D 推断,但由于遮挡和有限的视角变化,这些线索本身并不足够。为了获得准确的 3D 结果,我们使用通用的数据驱动先验来引导重建过程中的多视角信号。具体来说,我们学习了一个扩散网络,来建模基于手配置和类别标签的对象(几何)渲染的条件分布,并利用它作为先验来指导重建场景的新视角渲染。我们在 6 个物体类别的自我中心视频上对我们的方法进行了实证评估,并观察到相较于先前的单视角和多视角方法有显著的改进。最后,我们展示了我们的系统能够从 YouTube 中重建任意剪辑,展示了第一人称和第三人称的交互。

该文介绍了一种通过手物体交互的重建任务来进行短视频剪辑的3D推断的方法。作者使用通用的数据驱动先验来引导重建过程中的多视角信号,并在6个物体类别的自我中心视频上进行了实证评估。结果显示,该方法相较于先前的单视角和多视角方法有显著的改进。最后,作者展示了他们的系统能够从YouTube中重建任意剪辑,展示了第一人称和第三人称的交互。

3D推断 YouTube 多视角信号 数据驱动先验 短视频剪辑

相关推荐 去reddit讨论

热榜 Top10

LigaAI
LigaAI
eolink
eolink
Dify.AI
Dify.AI
观测云
观测云

推荐或自荐