RanLayNet:一种用于领域自适应和泛化的文档布局检测数据集

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

本文介绍了多个文档布局分析数据集及其应用,如PubLayNet、LoRaLay和HJDataset。研究表明,结合布局感知和深度学习模型能有效提高文档信息提取的准确性,尤其在视觉丰富的文档中。此外,新框架READ和CLAY pipeline在布局生成和去噪方面也取得了进展。

🎯

关键要点

  • PubLayNet 数据集用于文档布局分析,深度神经网络模型能够准确识别科学文章的布局。
  • LoRaLay 数据集扩展了现有的英语数据集,提供了法语、西班牙语、葡萄牙语和韩语的新数据集,结合布局感知和长程模型取得了先进结果。
  • HJDataset 用于分析历史日文文档的布局,包含 250,000 多个布局元素注释,旨在提供深度学习模型的基准性能分析。
  • M^{6} Doc 数据集和基于 transformer 的 TransDLANet 方法实现了更精确的文档图像实例分割,TransDLANet 在该数据集上达到了 64.5% 的 mAP。
  • LIE 数据集用于从视觉丰富的文档中提取结构和语义知识,包含 4,061 页的 62k 注释,是最大的基于 VRD 的信息提取数据集。
  • READ 框架利用递归自动编码器生成多样的文档 2D 布局,证明了生成布局的高可变性和实际性。
  • CLAY pipeline 采用深度学习方法进行 UI 布局去噪,创建了 59,555 个人工注解的屏幕布局数据集,提供高质量的 UI 布局数据。

延伸问答

PubLayNet 数据集的主要用途是什么?

PubLayNet 数据集用于文档布局分析,能够准确识别科学文章的布局。

LoRaLay 数据集有哪些语言的支持?

LoRaLay 数据集支持法语、西班牙语、葡萄牙语和韩语。

HJDataset 的特点是什么?

HJDataset 包含 250,000 多个布局元素注释,专注于历史日文文档的布局分析。

TransDLANet 方法在 M^{6} Doc 数据集上的表现如何?

TransDLANet 在 M^{6} Doc 数据集上达到了 64.5% 的 mAP,显示出其高精度。

LIE 数据集的规模和内容是什么?

LIE 数据集包含 4,061 页的 62k 注释,是最大的基于视觉丰富文档的信息提取数据集。

CLAY pipeline 的主要功能是什么?

CLAY pipeline 采用深度学习方法进行 UI 布局去噪,并创建了高质量的屏幕布局数据集。

➡️

继续阅读