小红花·文摘

DFRT是一种用于few-shot声音驱动下的面部融合的方法，使用2D图像学习面部先验知识，并提出了可微的面部扭曲模块以更好地建模面部变形。实验结果表明，该方法可以在很短时间内生成高质量的自然音频驱动的视频。