DocLayout-YOLO:通过多样化合成数据和全局到局部自适应感知增强文档布局分析

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文介绍了READ框架,利用递归自动编码器生成多样的文档2D布局。通过递归提取文档结构,并用标注数据集学习结构表示,将其映射到高斯空间生成新布局。引入组合度量评估布局相似性,证明生成布局具有高可变性和实际应用性,尤其在文本检测任务中表现出色。

🎯

关键要点

  • 提出了一种名为READ的新框架,利用递归自动编码器生成多样的文档2D布局。
  • 采用递归方法提取文档结构分解,并利用标注边界框的文档数据集进行学习。
  • 获得结构表示形式并将其映射到高斯空间生成新的文本布局。
  • 引入组合度量来测量文档布局之间的结构相似性。
  • 证明生成的文档布局具有高可变性和实际应用性,尤其在文本检测任务中表现出色。
➡️

继续阅读