DiffTED:利用扩散生成的音频驱动TED演讲视频生成方法
内容提要
本研究提出了多个基于扩散模型的框架,用于生成高保真的音频驱动手势和对话头像视频。ANGIE框架捕捉手势模式,DiffGesture确保音频与手势的时间一致性,DiffPoseTalk辅助生成面部动画,FreeTalker生成语音驱动的手势,DiffSHEG同步表情与手势,ConvoFusion调节多模态手势。MoDiTalker解决对话头像生成中的质量问题,运动解耦框架和PoseLatent Diffusion模型显著提升了生成效果。
关键要点
-
本研究提出了ANGIE框架,使用向量量化运动提取器和共同语言GPT,捕捉可重用的共同语言手势模式和细粒度节奏变化,实现高保真度的图像序列生成。
-
DiffGesture框架有效捕捉音频与手势的时间一致性,平衡质量和多样性,实现高保真的音频驱动共话手势生成。
-
DiffPoseTalk框架通过提取短参考视频的风格嵌入,辅助面部动画生成,解决了3D说话脸数据不足的问题。
-
FreeTalker是首个生成语音驱动的手势和文本驱动的演讲者动作的框架,利用扩散模型进行训练,实现平滑剪辑过渡。
-
DiffSHEG实现高质量的同步表情和手势生成,通过单向信息流和任意长序列生成策略。
-
ConvoFusion通过两个引导目标调节不同条件模态,实现多用途的手势合成。
-
MoDiTalker解决了对话头像生成中的质量和训练不稳定问题,实现高质量的对话头像生成。
-
提出的运动解耦框架通过学习手势和语音之间的时序相关性,生成长期连贯和一致的手势视频。
-
两阶段扩散模型优化嘴部抖动问题,实现高保真且时间一致的对话头视频生成。
-
PoseLatent Diffusion模型结合文本提示和音频生成自然的头部动作,提高唇部同步性和视频生成的自然度。
延伸问答
ANGIE框架的主要功能是什么?
ANGIE框架用于捕捉可重用的共同语言手势模式和细粒度节奏变化,实现高保真度的图像序列生成。
DiffGesture框架如何确保音频与手势的一致性?
DiffGesture框架通过有效捕捉跨模态的音频到手势关联,保持时间上的一致性,实现高保真的音频驱动共话手势生成。
FreeTalker框架的创新之处是什么?
FreeTalker是首个生成语音驱动的手势和文本驱动的演讲者动作的框架,利用扩散模型进行训练,实现平滑剪辑过渡。
MoDiTalker模型解决了哪些问题?
MoDiTalker模型解决了对话头像生成中的质量有限和训练不稳定的问题,实现高质量的对话头像生成。
DiffSHEG框架的主要功能是什么?
DiffSHEG框架实现高质量的同步表情和手势生成,通过单向信息流和任意长序列生成策略。
PoseLatent Diffusion模型的作用是什么?
PoseLatent Diffusion模型结合文本提示和音频生成自然的头部动作,提高唇部同步性和视频生成的自然度。