小红花·文摘

该论文介绍了一个斯瓦希里语自然场景文本检测和识别的数据集，包括976张带标注的场景图像和8284张裁剪后的图像。该数据集旨在为斯瓦希里语开发全面的场景文本数据集，为评估现有模型提供基准，并帮助研究社区开发新的最先进方法。

Swahili-text：华中大推出非洲语言场景文本检测和识别数据集 | ICDAR 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

该论文提出了一种基于Transformer的端到端方法DLAFormer，用于文档布局分析。DLAFormer整合了多个文档布局分析任务，包括图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测。通过将这些任务视为关系预测问题，并采用统一标签空间方法，DLAFormer能够同时有效地处理这些任务。实验结果表明，DLAFormer在文档布局分析基准测试中表现优于先前的方法。

DLAFormer：微软提出多任务统一的端到端文本分析Transformer模型 | ICDAR 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

抖音CV技术团队在ICDAR 2023的“Detecting Tampered Text in Images”比赛中获得第一名。团队使用自研的“CAS”算法，设计了“Classification After Segmentation”的二阶段分类器，并采用多种数据扩充的方式扩充训练样本。最终，团队采用加权平均的方式进行结果融合，并通过对比同源图片的差异获取可靠的局部篡改信息。

自研算法提升文本图像篡改检测精度，抖音技术团队获 ICDAR2023 分类赛道冠军...

字节跳动技术团队官方博客 ·