自研算法提升文本图像篡改检测精度,抖音技术团队获 ICDAR2023 分类赛道冠军...
💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
抖音CV技术团队在ICDAR 2023的“Detecting Tampered Text in Images”比赛中获得第一名。团队使用自研的“CAS”算法,设计了“Classification After Segmentation”的二阶段分类器,并采用多种数据扩充的方式扩充训练样本。最终,团队采用加权平均的方式进行结果融合,并通过对比同源图片的差异获取可靠的局部篡改信息。
🎯
关键要点
- 抖音CV技术团队在ICDAR 2023比赛中获得第一名,使用自研的CAS算法。
- ICDAR是国际文档图像分析和识别领域的权威学术会议,每两年举办一次。
- DTT竞赛专注于真实场景下的文本图像篡改检测,面临精度和泛化性挑战。
- 比赛数据集包含19000张真实场景下的文本图像,任务是判断图片是否经过篡改。
- 赛程分为初赛和复赛,初赛前30名进入复赛,复赛阶段测试集不公开。
- 团队通过引入第三方数据集和在线生成等方式扩充训练样本,提高泛化能力。
- 设计了Classification After Segmentation的二阶段分类器,融合CNN和Transformer特性。
- 使用滑窗采样方式保留图片整体语义和局部细节,适应算力和资源限制。
- 数据扩充包括局部擦除、复制粘贴和替换等多种篡改方式,使用后处理消除痕迹。
- 模型结构采用先分割后分类的设计,解耦浅层篡改痕迹感知和抽象文本语义理解。
- 训练阶段结合BCE loss和dice loss,分类阶段使用交叉熵和标签平滑。
- 采用二阶段训练策略,提升模型的泛化能力和整体性能。
- 结果融合使用加权平均,结合水平翻转和同源图片差异获取局部篡改信息。
- 抖音CV团队致力于计算机视觉算法的创新,保障多业务推荐系统的安全发展。
➡️