鸸鹋视频:通过明确图像调节来因式分解文本到视频生成
📝
内容提要
我们提出了 Emu Video,一个文本到视频生成模型,将生成过程分解为两个步骤:首先根据文本生成图像,然后根据文本和生成的图像生成视频。我们确定了关键的设计决策 - 对扩散进行调整的噪声计划和多阶段训练,使我们能够直接生成高质量高分辨率的视频,而无需像之前的工作那样需要一系列深度模型级联。在人工评估中,与所有之前的工作相比,我们生成的视频在质量上都得到了极高的评价 - 相对于...
➡️