该论文介绍了一个斯瓦希里语自然场景文本检测和识别的数据集,包括976张带标注的场景图像和8284张裁剪后的图像。该数据集旨在为斯瓦希里语开发全面的场景文本数据集,为评估现有模型提供基准,并帮助研究社区开发新的最先进方法。
该论文提出了一种基于Transformer的端到端方法DLAFormer,用于文档布局分析。DLAFormer整合了多个文档布局分析任务,包括图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测。通过将这些任务视为关系预测问题,并采用统一标签空间方法,DLAFormer能够同时有效地处理这些任务。实验结果表明,DLAFormer在文档布局分析基准测试中表现优于先前的方法。
抖音CV技术团队在ICDAR 2023的“Detecting Tampered Text in Images”比赛中获得第一名。团队使用自研的“CAS”算法,设计了“Classification After Segmentation”的二阶段分类器,并采用多种数据扩充的方式扩充训练样本。最终,团队采用加权平均的方式进行结果融合,并通过对比同源图片的差异获取可靠的局部篡改信息。
完成下面两步后,将自动完成登录并继续当前操作。