嘴唇说谎:识别唇同步 DeepFakes 中音频和视觉之间的时间不一致
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
StyleLipSync是一种基于风格的个性化唇形同步视频生成模型,可以从任意音频生成与身份无关的唇形同步视频。该模型通过引入姿态感知掩蔽和少量样本的唇形同步适应方法,生成准确的唇形同步视频,并增强个人特定的视觉信息。实验证明,该模型在零样本设置下也能增强看不见的面部特征。
🎯
关键要点
- StyleLipSync是一种基于风格的个性化唇形同步视频生成模型。
- 该模型可以从任意音频生成与身份无关的唇形同步视频。
- 模型利用预先训练的StyleGAN的语义丰富潜空间生成视频。
- 引入姿态感知掩蔽以提高过帧自然性。
- 提出少量样本的唇形同步适应方法,增强个人特定的视觉信息。
- 实验证明模型在零样本设置下也能增强看不见的面部特征。
🏷️
标签
➡️