Emu Video是一个文本到视频生成模型,将过程分解为两个步骤:根据文本生成图像,然后根据文本和生成的图像生成视频。该模型在视频质量方面表现优于以前的作品,超过了Google的Imagen Video、Nvidia的PYOCO、Meta的Make-A-Video以及商业解决方案如RunwayML的Gen2和Pika Labs。该模型还允许根据用户的文本提示对图像进行动画处理,其偏好评分为96%,相比以前的作品更高。
本文介绍了文本到视频生成模型的发展历程、挑战和现状,讨论了其工作原理、与文本到图像模型的区别以及最新发展。同时分享了如何使用预训练的文本到视频模型。
完成下面两步后,将自动完成登录并继续当前操作。