提高视频扩散变换器的相机运动控制

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

我们提出了一种无需训练的方法 CamTrol,可以通过图像或文本提示生成具有摄像机运动控制的视频。通过重新排列噪点像素,实现了摄像机运动的控制,能够生成动态内容的三维旋转视频。

🎯

关键要点

  • 提出了一种无需训练的解决方案CamTrol,为视频扩散模型提供摄像机运动控制。

  • 该方法不需要在带有摄像机注释的数据集上进行有监督微调或自监督训练。

  • 只需一个图像或文本提示作为输入即可生成可控摄像机的视频。

  • 灵感来自中间隐藏变量对生成结果的布局先验,通过重新排列噪点像素实现输出内容的重新分配。

  • 摄像机移动被视为透视变化引起的像素重新排列,视频可以按照特定的摄像机运动进行重新组织。

  • 方法分为两个阶段:在三维点云空间中建模图像布局重新排列和生成具有摄像机运动的视频。

  • 广泛的实验证明了该方法在控制生成视频的摄像机运动方面的鲁棒性。

  • 展示了在生成具有动态内容的三维旋转视频方面的令人印象深刻的结果。

➡️

继续阅读