ControlNeXt:强大且高效的图像和视频生成控制

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文提出了一种无需训练的解决方案,用于控制现有视频扩散模型的摄像机运动。该方法不需要有监督微调或自监督训练,只需一个图像或文本提示作为输入即可生成可控摄像机的视频。实验证明了该方法在控制生成视频的摄像机运动方面的鲁棒性。

🎯

关键要点

  • 提出了一种无需训练的解决方案,用于控制现有视频扩散模型的摄像机运动。
  • 该方法不需要有监督微调或自监督训练,只需一个图像或文本提示作为输入。
  • 灵感来自中间隐藏变量对生成结果的布局先验,通过重新排列噪点像素来重新分配输出内容。
  • 摄像机移动被视为透视变化引起的像素重新排列,视频可以按照特定的摄像机运动进行重新组织。
  • 方法名为CamTrol,通过两个阶段的过程实现稳健的摄像机控制。
  • 在三维点云空间中建模图像布局重新排列,通过显式摄像机运动。
  • 使用重新排列的图像形成的噪点隐藏变量的布局先验生成具有摄像机运动的视频。
  • 广泛的实验证明了该方法在控制生成视频的摄像机运动方面的鲁棒性。
  • 展示了该方法在生成具有动态内容的三维旋转视频方面的令人印象深刻的结果。
➡️

继续阅读