本文介绍了一种基于低秩适应的时空注意力层的视频生成模型,该模型能够从单个参考视频中学习运动信息,适应新主题和场景。通过引入运动个性化和伪光流技术,提升了视频编辑能力,并提出了TI2V任务和MAGE生成器,验证了其在文本到视频生成中的有效性。
本文提出了一种使用传统的图像层面个性化方法解决视频编辑中的偏见问题。通过运动个性化从单一源视频中分离运动并修改主角,并引入新颖的伪光流来调节运动词以适应运动相关区域。最终通过伪词将运动与源视频的外观分离,实现了更多样化和广泛的视频编辑能力。
完成下面两步后,将自动完成登录并继续当前操作。