Sora之前的视频生成发展史：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

第一种是基础模式（Basic Mode），用户只需要提供一张指导图片+文本描述，PixelDance 就可以生成有高度一致性且有丰富动态性的视频，其中指导图片可以是真实图片，也可以利用现有的文生图模型生成。而达到这样拔群的视频生成效果，并没有依赖复杂的数据集和大规模的模型训练，PixelDance 在公开的 WebVid-10M 数据集上仅用 1.5B...

今年，Runway发布了Gen-1和Gen-2模型，提升了视频生成的一致性，但牺牲了动态性。Meta发布了Emu Video，动态性有所提高。Stability.ai发布了SVD模型，效果与Gen-2相当，但缺乏动态性。PixelDance是视频生成领域的重要研究成果，可以生成高度一致且丰富动态的视频。PixelDance有两种生成模式，基础模式和高级魔法模式。它可以根据用户提供的图片和文本生成各种风格的视频。PixelDance的生成效果出色，不依赖复杂的数据集和大规模的模型训练。PixelDance的论文提出了基于文本和图片指导的视频生成方法。作者正在积极迭代模型效果，未来2-3个月将发布试用模型。

Emu Video Gen-1 Gen-2 Runway Stability.ai sora