嘴唇说谎:识别唇同步 DeepFakes 中音频和视觉之间的时间不一致
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种新颖的方法,通过利用嘴唇运动和音频信号之间的不一致性,以及模拟嘴唇和头部区域之间的生物联系来进行唇诈骗识别,实验证明我们的方法在发现唇同步视频方面的平均准确率超过 95.3%,明显优于基准方法。这项研究在现实世界场景中取得了高达 90.2%的准确率,并显示了其在真实场景部署方面的强大功能。
StyleLipSync是一种基于风格的个性化唇形同步视频生成模型,可以从任意音频生成与身份无关的唇形同步视频。该模型通过引入姿态感知掩蔽和少量样本的唇形同步适应方法,生成准确的唇形同步视频,并增强个人特定的视觉信息。实验证明,该模型在零样本设置下也能增强看不见的面部特征。