小红花·文摘

本文介绍了一种无需训练的文本到视频生成方法，利用现有的文本到图像生成方法生成逼真的动态视频。该方法将运动表示明确地分为条件引导和场景运动组成，并引入了稀疏双向时空注意力来改善时序一致性。与其他方法相比，该方法在帧一致性、剪辑评分和条件精度方面表现出卓越性能。