DLAFormer:文档布局分析的端到端 Transformer
原文中文,约400字,阅读约需1分钟。发表于: 。本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法,将各个子任务整合到一个模型中,利用统一的关系预测模块同时处理多个任务,并引入一组类型化查询来增强 DET 的内容查询的物理意义,采用粗细策略准确识别图形页对象。实验证明,DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。
该论文研究了文档布局分析,使用基于Transformer的对象检测网络进行图形页面对象检测,提高了解码器效率。实验结果表明,该方法在基准测试上表现优秀,提高了文档转换和信息检索的能力。