小红花·文摘

本研究提出FADA方法，解决音频驱动对话头像的慢推理速度问题。通过混合监督损失和多CFG蒸馏，FADA显著提高了模型的稳健性和推理速度，速度提升可达4.17-12.5倍，生成效果媲美最新扩散模型。

FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation

BriefGPT - AI 论文速递 ·

本研究提出了多个基于扩散模型的框架，用于生成高保真的音频驱动手势和对话头像视频。ANGIE框架捕捉手势模式，DiffGesture确保音频与手势的时间一致性，DiffPoseTalk辅助生成面部动画，FreeTalker生成语音驱动的手势，DiffSHEG同步表情与手势，ConvoFusion调节多模态手势。MoDiTalker解决对话头像生成中的质量问题，运动解耦框架和PoseLatent Diffusion模型显著提升了生成效果。

DiffTED：利用扩散生成的音频驱动TED演讲视频生成方法

BriefGPT - AI 论文速递 ·