DLAFormer:文档布局分析的端到端 Transformer
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该论文研究了文档布局分析,使用基于Transformer的对象检测网络进行图形页面对象检测,提高了解码器效率。实验结果表明,该方法在基准测试上表现优秀,提高了文档转换和信息检索的能力。
🎯
关键要点
-
该论文研究文档布局分析,使用基于Transformer的对象检测网络进行图形页面对象检测。
-
引入查询编码机制,提供高质量的对象查询以增强解码器效率。
-
采用混合匹配方案结合一对一和一对多匹配策略,提高模型检测图形元素的准确性和通用性。
-
实验结果显示该方法在多个基准测试上表现优异,PubLayNet平均精度为97.3%,DocLayNet为81.6%,PubTables为98.6%。
-
该方法提高了文档转换为可编辑格式的能力,并简化了信息检索和数据提取过程。
➡️