重新捕捉:通过掩蔽视频微调为用户提供的视频生成可控视频摄像机控制
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
我们提出了一种无需训练的摄像机运动控制方案,适用于现成的视频扩散模型。该方法仅需一个图像或文本提示即可生成可控视频。通过重排噪点像素,实现了稳健的摄像机控制,并在生成动态三维旋转视频方面取得显著成果。
🎯
关键要点
-
提出了一种无需训练的摄像机运动控制方案,适用于现成的视频扩散模型。
-
该方法只需一个图像或文本提示即可生成可控视频。
-
与以往工作不同,不需要在带有摄像机注释的数据集上进行有监督微调。
-
灵感来自中间隐藏变量对生成结果的布局先验,通过重排噪点像素实现输出内容的重新分配。
-
摄像机移动被视为透视变化引起的像素重新排列。
-
方法名为CamTrol,通过两个阶段实现稳健的摄像机控制。
-
第一阶段在三维点云空间中建模图像布局重新排列。
-
第二阶段使用重新排列的图像生成具有摄像机运动的视频。
-
广泛实验验证了方法在控制生成视频摄像机运动方面的鲁棒性。
-
展示了在生成动态内容的三维旋转视频方面的显著成果。
➡️