谷歌发布了VLOGGER,一种能将照片转化为动态视频的新技术。VLOGGER使用两个AI,Lipreader和Animator,具备图像到视频、视频翻译和视频编辑等功能。VLOGGER需要真实人物照片,无法创造虚构人物。目前VLOGGER还是一个研究项目。
研究人员提出了一种名为VLOGGER的人体视频生成方法,通过扩展最新的扩散生成模型,在人体到3D动作扩散模型和扩散式架构两方面加入空间和时间控制,实现了高质量视频生成的支持。使用新的更大规模的数据集进行训练和评估,VLOGGER在图像质量、身份保持、时间一致性和生成上半身手势等方面优于现有方法,并展示了在视频编辑和个性化方面的应用。
Vlogger是一个通用的人工智能系统,用于生成用户描述的分钟级视频博客。它通过智能地利用大型语言模型作为导演,将视频生成任务分解为四个关键阶段,并通过引入文本和视觉提示来提高片段的时空一致性。实验证明,Vlogger在零样本T2V生成和预测任务上达到了最先进的性能,并且能够从开放世界描述中生成超过5分钟的vlogs,保持视频的连贯性。
完成下面两步后,将自动完成登录并继续当前操作。