本文介绍了一种无需训练的文本到视频生成方法,利用现有的文本到图像生成方法生成逼真的动态视频。该方法将运动表示明确地分为条件引导和场景运动组成,并引入了稀疏双向时空注意力来改善时序一致性。与其他方法相比,该方法在帧一致性、剪辑评分和条件精度方面表现出卓越性能。
完成下面两步后,将自动完成登录并继续当前操作。