字节跳动技术团队官方博客 ·

自研算法提升文本图像篡改检测精度，抖音技术团队获 ICDAR2023 分类赛道冠军...

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

抖音CV技术团队在ICDAR 2023的“Detecting Tampered Text in Images”比赛中获得第一名。团队使用自研的“CAS”算法，设计了“Classification After Segmentation”的二阶段分类器，并采用多种数据扩充的方式扩充训练样本。最终，团队采用加权平均的方式进行结果融合，并通过对比同源图片的差异获取可靠的局部篡改信息。

🎯

关键要点

抖音CV技术团队在ICDAR 2023比赛中获得第一名，使用自研的CAS算法。
ICDAR是国际文档图像分析和识别领域的权威学术会议，每两年举办一次。
DTT竞赛专注于真实场景下的文本图像篡改检测，面临精度和泛化性挑战。
比赛数据集包含19000张真实场景下的文本图像，任务是判断图片是否经过篡改。
赛程分为初赛和复赛，初赛前30名进入复赛，复赛阶段测试集不公开。
团队通过引入第三方数据集和在线生成等方式扩充训练样本，提高泛化能力。
设计了Classification After Segmentation的二阶段分类器，融合CNN和Transformer特性。
使用滑窗采样方式保留图片整体语义和局部细节，适应算力和资源限制。
数据扩充包括局部擦除、复制粘贴和替换等多种篡改方式，使用后处理消除痕迹。
模型结构采用先分割后分类的设计，解耦浅层篡改痕迹感知和抽象文本语义理解。
训练阶段结合BCE loss和dice loss，分类阶段使用交叉熵和标签平滑。
采用二阶段训练策略，提升模型的泛化能力和整体性能。
结果融合使用加权平均，结合水平翻转和同源图片差异获取局部篡改信息。
抖音CV团队致力于计算机视觉算法的创新，保障多业务推荐系统的安全发展。

🏷️

内容提要

关键要点

标签

继续阅读