重新捕捉:通过掩蔽视频微调为用户提供的视频生成可控视频摄像机控制

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

我们提出了一种无需训练的摄像机运动控制方案,适用于现成的视频扩散模型。该方法仅需一个图像或文本提示即可生成可控视频。通过重排噪点像素,实现了稳健的摄像机控制,并在生成动态三维旋转视频方面取得显著成果。

🎯

关键要点

  • 提出了一种无需训练的摄像机运动控制方案,适用于现成的视频扩散模型。

  • 该方法只需一个图像或文本提示即可生成可控视频。

  • 与以往工作不同,不需要在带有摄像机注释的数据集上进行有监督微调。

  • 灵感来自中间隐藏变量对生成结果的布局先验,通过重排噪点像素实现输出内容的重新分配。

  • 摄像机移动被视为透视变化引起的像素重新排列。

  • 方法名为CamTrol,通过两个阶段实现稳健的摄像机控制。

  • 第一阶段在三维点云空间中建模图像布局重新排列。

  • 第二阶段使用重新排列的图像生成具有摄像机运动的视频。

  • 广泛实验验证了方法在控制生成视频摄像机运动方面的鲁棒性。

  • 展示了在生成动态内容的三维旋转视频方面的显著成果。

➡️

继续阅读