小红花·文摘

本文提出了一种名为DFRT的方法，用于在少量训练数据下实现声音驱动的面部融合。该方法通过2D图像学习面部先验知识，并利用可微的面部扭曲模块建模面部变形，从而快速生成高质量的音频驱动视频。