VLOGGER: 身体化头像合成的多模态扩散
原文中文,约400字,阅读约需1分钟。发表于: 。提出了一种名为 VLOGGER 的从单个人物输入图像进行音频驱动的人体视频生成方法,该方法通过扩展最新的扩散生成模型,在人体到 3D 动作扩散模型和扩散式架构两方面加入空间和时间控制,实现了通过高层人脸和身体表征对可变长度的高质量视频生成的支持。使用新的且更大规模(800,000 个身份)的 MENTOR 数据集,训练并评估了主要技术贡献,VLOGGER...
研究人员提出了一种名为VLOGGER的人体视频生成方法,通过扩展最新的扩散生成模型,在人体到3D动作扩散模型和扩散式架构两方面加入空间和时间控制,实现了高质量视频生成的支持。使用新的更大规模的数据集进行训练和评估,VLOGGER在图像质量、身份保持、时间一致性和生成上半身手势等方面优于现有方法,并展示了在视频编辑和个性化方面的应用。