Drag-A-Video: 面向基于点的交互的非刚性视频编辑
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种通过对短视频剪辑进行手物体交互的重建任务的方法,通过优化每个视频的3D推断,恢复物体形状的神经3D表示和时间变化的动作和手关节。使用通用的数据驱动先验来引导重建过程中的多视角信号,实现准确的3D结果。实证评估表明,该方法相较于先前的方法有显著改进,能够从YouTube中重建任意剪辑,展示了第一人称和第三人称的交互。
🎯
关键要点
- 本文介绍了一种通过短视频剪辑进行手物体交互的重建方法。
- 该方法将3D推断视为每个视频的优化,恢复物体形状的神经3D表示和时间变化的动作及手关节。
- 输入视频提供多视角线索,但由于遮挡和视角变化,这些线索不足以获得准确的3D结果。
- 使用通用的数据驱动先验来引导重建过程中的多视角信号。
- 学习扩散网络建模基于手配置和类别标签的对象几何渲染的条件分布,作为先验指导重建。
- 在6个物体类别的自我中心视频上进行实证评估,显示出显著改进。
- 系统能够从YouTube中重建任意剪辑,展示第一人称和第三人称的交互。
➡️