自动身份识别对音频视觉深度伪造的漏洞

该研究论文介绍了首个真实的音频 - 视觉深度伪造数据库 SWAN-DF,其中嘴唇和语音同步,并具有高质量的视觉和音频。研究表明,通过调整现有的预训练深度伪造模型来适应特定身份,可以在超过 90% 的时间内成功欺骗人脸和说话人识别系统,并获得非常逼真的伪造视频。

本文提出了一种基于学习的方法来检测真实和虚假的deepfake多媒体内容。通过分析音频和视觉模态的相似性以及情感线索,推断输入视频的真实性。实验结果表明,该方法在DeepFake-TIMIT和DFDC数据集上的AUC分别达到了84.4%和96.6%。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文