DLAFormer：文档布局分析的端到端 Transformer

本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法，将各个子任务整合到一个模型中，利用统一的关系预测模块同时处理多个任务，并引入一组类型化查询来增强 DET 的内容查询的物理意义，采用粗细策略准确识别图形页对象。实验证明，DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。

该论文研究了文档布局分析，使用基于Transformer的对象检测网络进行图形页面对象检测，提高了解码器效率。实验结果表明，该方法在基准测试上表现优秀，提高了文档转换和信息检索的能力。

Transformer 对象检测网络布局文档布局分析文档转换解码器效率