本文介绍了多个文档布局分析的数据集和模型,如PubLayNet、DocBank和DocLayNet,展示了它们在科学文章布局识别中的有效性。研究提出了基于深度学习的框架,如READ和GraphLayoutLM,强调了多模态交互和空间感知的重要性,最终在文档理解任务中取得了先进成果。
该论文提出了一种基于Transformer的端到端方法DLAFormer,用于文档布局分析。DLAFormer整合了多个文档布局分析任务,包括图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测。通过将这些任务视为关系预测问题,并采用统一标签空间方法,DLAFormer能够同时有效地处理这些任务。实验结果表明,DLAFormer在文档布局分析基准测试中表现优于先前的方法。
本文研究了表格检测与提取,提出了一种新型深度学习模型TableNet,能够有效识别文档中的表格。通过引入新的数据集和改进的算法,模型在多个公开数据集上表现优异,尤其在复杂表格的结构推断和数据提取方面。研究还探讨了文档布局分析,利用基于Transformer的网络提高了识别精度,推动了信息检索和数据提取的效率。
文档布局分析旨在识别和分类文档中的不同内容。研究提出了基于图的布局分析模型(GLAM),在多个数据集上表现优异,准确率高达99%。此外,使用YOLOv5和DLAFormer等模型提高了文档布局识别和数据提取的效率,特别是在处理历史文档和孟加拉语文档时,展示了不同语言的挑战和解决方案。
该论文研究了文档布局分析,使用基于Transformer的对象检测网络进行图形页面对象检测,提高了解码器效率。实验结果表明,该方法在基准测试上表现优秀,提高了文档转换和信息检索的能力。
介绍了U-DIADS-Bib数据集和计算机辅助的分割流程,以减轻手工注释的负担。提供了少样本数据集(U-DIADS-BibFS),鼓励开发解决该任务的模型和解决方案,以在现实场景中更有效地使用。
本研究使用BaDLAD数据集和Mask R-CNN模型,通过文档布局分析(DLA)解决了理解孟加拉语文档的问题。调整超参数后,模型的Dice分数达到了0.889。然而,对英文文档训练的模型不适用于孟加拉语。DL Sprint 2.0方案的解决方案公开可用,链接位于https URL。
完成下面两步后,将自动完成登录并继续当前操作。