FakeShield：基于多模态大语言模型的可解释图像伪造检测与定位

本研究针对当前图像伪造检测与定位方法的黑箱性和通用性不足的问题，提出了可解释的图像伪造检测与定位任务，设计了FakeShield框架。该框架通过像素级和图像级的伪造线索，对图像真伪进行评估，并生成伪造区域的掩模，实验证明其在多种伪造技术的检测和定位上优于以往方法，具有显著的可解释性。

我们推出了RTM数据集，包含14250个文本图像，其中包括手动和自动篡改的图像，以及未更改的图像。现有方法在检测这些篡改上有困难。我们开发了一种新方法，通过一致性感知聚合中心和门控交叉邻域注意模块，实现多模态信息融合，并通过篡改-真实对比学习模块提高特征差异性。此框架可扩展至其他双流结构，提升篡改定位性能。代码和数据集将于2023年12月发布。

RTM数据集多模态融合大语言模型对比学习篡改检测