Sora之前的视频生成发展史:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

第一种是基础模式(Basic Mode),用户只需要提供一张指导图片+文本描述,PixelDance 就可以生成有高度一致性且有丰富动态性的视频,其中指导图片可以是真实图片,也可以利用现有的文生图模型生成。而达到这样拔群的视频生成效果,并没有依赖复杂的数据集和大规模的模型训练,PixelDance 在公开的 WebVid-10M 数据集上仅用 1.5B...

今年,Runway发布了Gen-1和Gen-2模型,提升了视频生成的一致性,但牺牲了动态性。Meta发布了Emu Video,动态性有所提高。Stability.ai发布了SVD模型,效果与Gen-2相当,但缺乏动态性。PixelDance是视频生成领域的重要研究成果,可以生成高度一致且丰富动态的视频。PixelDance有两种生成模式,基础模式和高级魔法模式。它可以根据用户提供的图片和文本生成各种风格的视频。PixelDance的生成效果出色,不依赖复杂的数据集和大规模的模型训练。PixelDance的论文提出了基于文本和图片指导的视频生成方法。作者正在积极迭代模型效果,未来2-3个月将发布试用模型。

原文中文,约3200字,阅读约需8分钟。发表于:
阅读原文