BriefGPT - AI 论文速递 ·

FFAA：基于多模态大语言模型的可解释开放世界人脸伪造分析助手

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文介绍了多个面部伪造检测数据集和算法的进展，包括ForgeryNet、FFIW-10K和OpenForensics，旨在提升深度伪造检测性能。研究提出了新框架和方法，如视觉语言人脸伪造检测（VLFFD）和适应性伪造感知Transformer（FA-ViT），并在多个基准测试中表现优越。此外，GenFace数据集和跨外观边缘学习（CAEL）检测器的设计也推动了该领域的发展。

🎯

关键要点

构建了最大的公共面部伪造数据集ForgeryNet，包含2.9百万张图片和221,247个视频，涉及图像和视频级的四个任务。
FFIW-10K数据集包括10000个高质量伪造视频，结合新算法提升了人脸伪造检测性能。
创建了大规模数据集OpenForensics，评估了最新实例检测和分割方法的效果，推动深度伪造的预防和人脸检测研究。
提出视觉语言人脸伪造检测（VLFFD）新范式，解决检测模型缺乏语义信息的问题，表现优于现有模型。
提出Contrastive Multi-FaceForensics (COMICS)框架，通过双粒度对比学习提升多脸伪造检测性能。
提出适应性伪造感知Transformer (FA-ViT)，通过冻结预训练参数和引入特定组件提高Deepfake检测性能。
设计了GenFace数据集，包含大量由先进生成器生成的伪造人脸，推动深度伪造检测的发展。
创新的跨外观边缘学习（CAEL）检测器用于捕获多粒度的外观和边缘全局表示，检测伪造痕迹。
多模态大型语言模型在面部攻击检测和伪造检测方面表现出潜在的有效性，优于传统模型。

❓

延伸问答

什么是ForgeryNet数据集，它包含哪些内容？

ForgeryNet是最大的公共面部伪造数据集，包含2.9百万张图片和221,247个视频，涉及图像伪造分类、空间伪造定位、视频伪造分类和时间伪造定位四个任务。

FFIW-10K数据集如何提升人脸伪造检测性能？

FFIW-10K数据集包含10000个高质量伪造视频，结合新算法提升了人脸伪造检测性能，并在基准测试中表现优秀。

视觉语言人脸伪造检测（VLFFD）是什么？

VLFFD是一种新范式，通过引入细粒度提示和粗细联合训练框架，解决检测模型缺乏语义信息的问题，并在多个基准测试中表现优越。

适应性伪造感知Transformer (FA-ViT)的工作原理是什么？

FA-ViT通过冻结预训练参数和引入特定组件来提高Deepfake检测性能，利用单域成对学习增强鲁棒性。

GenFace数据集的特点是什么？

GenFace数据集包含大量由先进生成器生成的伪造人脸，推动深度伪造检测的发展，并提供详细的操作方法标签。

跨外观边缘学习（CAEL）检测器的创新之处在哪里？

CAEL检测器用于捕获多粒度的外观和边缘全局表示，能够有效检测伪造痕迹，展现出较强的区分能力。

🏷️