本研究提出FADA方法,解决音频驱动对话头像的慢推理速度问题。通过混合监督损失和多CFG蒸馏,FADA显著提高了模型的稳健性和推理速度,速度提升可达4.17-12.5倍,生成效果媲美最新扩散模型。
本研究提出了多个基于扩散模型的框架,用于生成高保真的音频驱动手势和对话头像视频。ANGIE框架捕捉手势模式,DiffGesture确保音频与手势的时间一致性,DiffPoseTalk辅助生成面部动画,FreeTalker生成语音驱动的手势,DiffSHEG同步表情与手势,ConvoFusion调节多模态手势。MoDiTalker解决对话头像生成中的质量问题,运动解耦框架和PoseLatent Diffusion模型显著提升了生成效果。
完成下面两步后,将自动完成登录并继续当前操作。