小红花·文摘

Emu Video是一个文本到视频生成模型，将过程分解为两个步骤：根据文本生成图像，然后根据文本和生成的图像生成视频。该模型在视频质量方面表现优于以前的作品，超过了Google的Imagen Video、Nvidia的PYOCO、Meta的Make-A-Video以及商业解决方案如RunwayML的Gen2和Pika Labs。该模型还允许根据用户的文本提示对图像进行动画处理，其偏好评分为96%，相比以前的作品更高。