小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了多个文档布局分析的数据集和模型，如PubLayNet、DocBank和DocLayNet，展示了它们在科学文章布局识别中的有效性。研究提出了基于深度学习的框架，如READ和GraphLayoutLM，强调了多模态交互和空间感知的重要性，最终在文档理解任务中取得了先进成果。

DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

BriefGPT - AI 论文速递 ·

该论文提出了一种基于Transformer的端到端方法DLAFormer，用于文档布局分析。DLAFormer整合了多个文档布局分析任务，包括图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测。通过将这些任务视为关系预测问题，并采用统一标签空间方法，DLAFormer能够同时有效地处理这些任务。实验结果表明，DLAFormer在文档布局分析基准测试中表现优于先前的方法。

DLAFormer：微软提出多任务统一的端到端文本分析Transformer模型 | ICDAR 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本文研究了表格检测与提取，提出了一种新型深度学习模型TableNet，能够有效识别文档中的表格。通过引入新的数据集和改进的算法，模型在多个公开数据集上表现优异，尤其在复杂表格的结构推断和数据提取方面。研究还探讨了文档布局分析，利用基于Transformer的网络提高了识别精度，推动了信息检索和数据提取的效率。

潜在扩散模型用于引导文档表格生成

BriefGPT - AI 论文速递 ·

文档布局分析旨在识别和分类文档中的不同内容。研究提出了基于图的布局分析模型（GLAM），在多个数据集上表现优异，准确率高达99%。此外，使用YOLOv5和DLAFormer等模型提高了文档布局识别和数据提取的效率，特别是在处理历史文档和孟加拉语文档时，展示了不同语言的挑战和解决方案。

无监督文档布局分析

BriefGPT - AI 论文速递 ·

本文探讨了文档布局分析（DLA），介绍了基于图的布局分析模型（GLAM）和双流视觉格点变换器（VGT）。研究表明，这些模型在文档分类和对象检测中表现优异，尤其在处理复杂文档时，准确率可达99%。此外，提出了稳健性测试和新数据集，以提升模型的实际应用效果。

DLAFormer：文档布局分析的端到端 Transformer

BriefGPT - AI 论文速递 ·

本文介绍了多个文档布局分析数据集及其应用，如PubLayNet、LoRaLay和HJDataset。研究表明，结合布局感知和深度学习模型能有效提高文档信息提取的准确性，尤其在视觉丰富的文档中。此外，新框架READ和CLAY pipeline在布局生成和去噪方面也取得了进展。

RanLayNet：一种用于领域自适应和泛化的文档布局检测数据集

BriefGPT - AI 论文速递 ·

文档布局分析（DLA）通过将文档划分为文本、图像和表格等部分，提升机器理解能力。本研究采用基于图的布局分析模型（GLAM），在孟加拉语文档上取得了Dice分数0.889的良好效果。同时，研究探讨了使用Mask R-CNN模型和LoRA方法来提升模型性能，并强调了预训练权重的重要性。

RoDLA：评估文档布局分析模型的鲁棒性

BriefGPT - AI 论文速递 ·

介绍了U-DIADS-Bib数据集和计算机辅助的分割流程，以减轻手工注释的负担。提供了少样本数据集(U-DIADS-BibFS)，鼓励开发解决该任务的模型和解决方案，以在现实场景中更有效地使用。

U-DIADS-Bib：古代手稿文档布局分析的全面和少样本像素精确数据集

BriefGPT - AI 论文速递 ·

本研究使用BaDLAD数据集和Mask R-CNN模型，通过文档布局分析（DLA）解决了理解孟加拉语文档的问题。调整超参数后，模型的Dice分数达到了0.889。然而，对英文文档训练的模型不适用于孟加拉语。DL Sprint 2.0方案的解决方案公开可用，链接位于https URL。

基于深度学习的孟加拉标牌地址信息的检测、识别和解析

BriefGPT - AI 论文速递 ·