BriefGPT - AI 论文速递 ·

RanLayNet：一种用于领域自适应和泛化的文档布局检测数据集

TransDLANet 在 M^{6} Doc 数据集上达到了 64.5％ 的 mAP，显示出其高精度。

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了多个文档布局分析数据集及其应用，如PubLayNet、LoRaLay和HJDataset。研究表明，结合布局感知和深度学习模型能有效提高文档信息提取的准确性，尤其在视觉丰富的文档中。此外，新框架READ和CLAY pipeline在布局生成和去噪方面也取得了进展。

🎯

PubLayNet 数据集用于文档布局分析，深度神经网络模型能够准确识别科学文章的布局。
LoRaLay 数据集扩展了现有的英语数据集，提供了法语、西班牙语、葡萄牙语和韩语的新数据集，结合布局感知和长程模型取得了先进结果。
HJDataset 用于分析历史日文文档的布局，包含 250,000 多个布局元素注释，旨在提供深度学习模型的基准性能分析。
M^{6} Doc 数据集和基于 transformer 的 TransDLANet 方法实现了更精确的文档图像实例分割，TransDLANet 在该数据集上达到了 64.5％的 mAP。
LIE 数据集用于从视觉丰富的文档中提取结构和语义知识，包含 4,061 页的 62k 注释，是最大的基于 VRD 的信息提取数据集。
READ 框架利用递归自动编码器生成多样的文档 2D 布局，证明了生成布局的高可变性和实际性。
CLAY pipeline 采用深度学习方法进行 UI 布局去噪，创建了 59,555 个人工注解的屏幕布局数据集，提供高质量的 UI 布局数据。

❓

PubLayNet 数据集用于文档布局分析，能够准确识别科学文章的布局。

LoRaLay 数据集支持法语、西班牙语、葡萄牙语和韩语。

HJDataset 包含 250,000 多个布局元素注释，专注于历史日文文档的布局分析。

TransDLANet 在 M^{6} Doc 数据集上达到了 64.5％的 mAP，显示出其高精度。

LIE 数据集包含 4,061 页的 62k 注释，是最大的基于视觉丰富文档的信息提取数据集。

CLAY pipeline 采用深度学习方法进行 UI 布局去噪，并创建了高质量的屏幕布局数据集。

🏷️