FakeShield:基于多模态大语言模型的可解释图像伪造检测与定位
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
我们推出了RTM数据集,包含14250个文本图像,其中包括手动和自动篡改的图像,以及未更改的图像。现有方法在检测这些篡改上有困难。我们开发了一种新方法,通过一致性感知聚合中心和门控交叉邻域注意模块,实现多模态信息融合,并通过篡改-真实对比学习模块提高特征差异性。此框架可扩展至其他双流结构,提升篡改定位性能。代码和数据集将于2023年12月发布。
🎯
关键要点
-
推出RTM数据集,包含14250个文本图像,涵盖手动、自动篡改和未更改的图像。
-
现有方法在RTM数据集上的文本伪造检测存在问题。
-
提出了一种新方法,结合一致性感知聚合中心和门控交叉邻域注意模块,实现多模态信息融合。
-
通过篡改-真实对比学习模块提高特征差异性。
-
该框架可扩展至其他双流结构,提升篡改定位性能。
-
手动和总体篡改的定位性能分别提高了7.33%和6.38%。
-
代码和数据集将于2023年12月发布。
➡️