DLAFormer:文档布局分析的端到端 Transformer

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该论文研究了文档布局分析,使用基于Transformer的对象检测网络进行图形页面对象检测,提高了解码器效率。实验结果表明,该方法在基准测试上表现优秀,提高了文档转换和信息检索的能力。

🎯

关键要点

  • 该论文研究文档布局分析,使用基于Transformer的对象检测网络进行图形页面对象检测。

  • 引入查询编码机制,提供高质量的对象查询以增强解码器效率。

  • 采用混合匹配方案结合一对一和一对多匹配策略,提高模型检测图形元素的准确性和通用性。

  • 实验结果显示该方法在多个基准测试上表现优异,PubLayNet平均精度为97.3%,DocLayNet为81.6%,PubTables为98.6%。

  • 该方法提高了文档转换为可编辑格式的能力,并简化了信息检索和数据提取过程。

➡️

继续阅读