MotionZero: 利用运动先验进行零样本文本到视频生成
原文中文,约300字,阅读约需1分钟。发表于: 。零样本文本到视频合成通过对不含有视频的提示生成视频。我们提出了一种称为 MotionZero 的提示自适应和解耦运动控制策略,从不同对象的提示中导出运动先验,并将不同对象的运动控制应用于相应的区域中。此外,为了支持运动振幅不同的视频,我们提出了一种运动感知的注意力机制来通过运动振幅调整帧之间的注意力。大量实验证明我们的策略可以正确控制不同对象的运动,并支持多种应用,包括零样本视频编辑。
本研究提出了一种简单但强大的基准线,通过利用预训练的I-VL模型和视频理解任务的能力进行训练。在行动识别、动作定位和文本-视频检索等任务中,实现了与现有方法相当或最新的性能。通过消融研究分析了关键组件和静态图像、视频之间的差距。