生成 AI 时代的通用篡改场景文本检测

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文章介绍了一个新的数据集RTM,用于解决文本伪造检测的问题。作者提出了一个强大的基线解决方案,采用一致性感知的聚合中心和门控交叉邻域注意融合模块进行多模态信息融合,并采用被篡改-真实对比学习模块来丰富特征表示的差异。该框架在手动和总体篡改的定位性能上有显著提高。作者希望推动现实世界文本篡改检测的进展。

🎯

关键要点

  • 提出了一个新的数据集RTM,包含14250个文本图像。
  • RTM数据集包括5986个手动篡改图像和5258个自动篡改图像。
  • 数据集中还包含3006个未更改的文本图像,用于评估解决方案的稳定性。
  • 现有方法在RTM数据集上的文本伪造检测存在问题。
  • 提出了一个强大的基线解决方案,采用一致性感知的聚合中心和门控交叉邻域注意融合模块。
  • 使用被篡改-真实对比学习模块丰富特征表示的差异。
  • 该框架在手动和总体篡改的定位性能上分别提高了7.33%和6.38%。
  • 希望推动现实世界文本篡改检测的进展,代码和数据集将提供在指定网址上。
➡️

继续阅读