DLAFormer:微软提出多任务统一的端到端文本分析Transformer模型 | ICDAR 2024 - 晓飞的算法工程笔记
原文中文,约6100字,阅读约需15分钟。发表于: 。论文提出新颖的基于Transformer的端到端方法DLAFormer,在统一的模型中集成多个文档布局分析任务,包括图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测。为了实现这一目标,将各种DLA子任务视为关系预测问题并提出了统一标签空间方法,使得统一关系预测模块能够有效而高效地同时处理这
该论文提出了一种基于Transformer的端到端方法DLAFormer,用于文档布局分析。DLAFormer整合了多个文档布局分析任务,包括图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测。通过将这些任务视为关系预测问题,并采用统一标签空间方法,DLAFormer能够同时有效地处理这些任务。实验结果表明,DLAFormer在文档布局分析基准测试中表现优于先前的方法。