飞桨PP系列新成员PP-DocLayout开源,版面检测加速大模型数据构建,超百页文档图像一秒搞定...
💡
原文中文,约5400字,阅读约需13分钟。
📝
内容提要
飞桨PaddlePaddle推出PP-DocLayout模型,支持23类文档的高精度识别,提升大模型训练数据的多样性与质量。该模型解决了复杂文档适用性不足、结构识别能力有限及实时性能不足等问题,适用于多种文档类型,具备高效处理能力。
🎯
关键要点
- 飞桨PaddlePaddle推出PP-DocLayout模型,支持23类文档的高精度识别。
- PP-DocLayout解决了复杂文档适用性不足、结构识别能力有限及实时性能不足的问题。
- 该模型适用于多种文档类型,提升大模型训练数据的多样性与质量。
- PP-DocLayout支持中英文论文、研报、试卷、书籍、报纸、杂志等多种文档类型的高精度识别与定位。
- 模型在CPU上每秒可处理约69个文档图像页面,T4 GPU上每秒可处理高达123个文档图像页面。
- PP-DocLayout系列支持23个常见版面布局类别,覆盖多样化文档中的常见元素。
- 提供高精度模型、精度和效率均衡模型、高效率模型三种不同尺度的模型。
- 采用主动学习的数据轮动方法,获取高质量多类型文档的训练数据。
- PP-DocLayout-L模型通过知识蒸馏技术增强模型泛化性能。
- PP-DocLayout-M/S模型采用半监督学习技术优化伪标签质量。
- 支持动态阈值调整、重叠框过滤和框合并模式等灵活后处理功能。
- 提供简单易用的Python API,方便用户快速体验模型预测效果。
- 支持高性能推理和二次开发,用户可根据需求进行模型微调训练。
➡️