Emu Video是一个文本到视频生成模型,将过程分解为两个步骤:根据文本生成图像,然后根据文本和生成的图像生成视频。该模型在视频质量方面表现优于以前的作品,超过了Google的Imagen Video、Nvidia的PYOCO、Meta的Make-A-Video以及商业解决方案如RunwayML的Gen2和Pika Labs。该模型还允许根据用户的文本提示对图像进行动画处理,其偏好评分为96%,相比以前的作品更高。
今年,Runway发布了Gen-1和Gen-2模型,提升了视频生成的一致性,但牺牲了动态性。Meta发布了Emu Video,动态性有所提高。Stability.ai发布了SVD模型,效果与Gen-2相当,但缺乏动态性。PixelDance是视频生成领域的重要研究成果,可以生成高度一致且丰富动态的视频。PixelDance有两种生成模式,基础模式和高级魔法模式。它可以根据用户提供的图片和文本生成各种风格的视频。PixelDance的生成效果出色,不依赖复杂的数据集和大规模的模型训练。PixelDance的论文提出了基于文本和图片指导的视频生成方法。作者正在积极迭代模型效果,未来2-3个月将发布试用模型。
完成下面两步后,将自动完成登录并继续当前操作。