百度大脑 ·

飞桨PP系列新成员PP-DocLayout开源，版面检测加速大模型数据构建，超百页文档图像一秒搞定...

💡 原文中文，约5400字，阅读约需13分钟。

📝

内容提要

飞桨PaddlePaddle推出PP-DocLayout模型，支持23类文档的高精度识别，提升大模型训练数据的多样性与质量。该模型解决了复杂文档适用性不足、结构识别能力有限及实时性能不足等问题，适用于多种文档类型，具备高效处理能力。

🎯

🔎

PP-DocLayout模型支持多达23种文档类型的高精度识别，涵盖了论文、报纸、杂志等多样化文档。这种广泛的适用性使得该模型在不同场景下都能有效应用，尤其是在需要处理复杂版式的情况下，能够显著提升文档数据的结构化质量。

PP-DocLayout系列提供了高精度、高效率和精度与效率均衡的三种模型，用户可以根据具体需求选择合适的模型。这种灵活性不仅满足了不同应用场景的需求，还能在资源受限的环境中实现高效推理，适应实时应用的挑战。

该模型支持动态阈值调整、重叠框过滤和框合并等多种后处理功能，用户可以根据具体数据优化检测效果。这种灵活性使得模型在实际应用中能够更好地适应不同的文档布局和内容，提高了整体的检测精度和效率。

❓

PP-DocLayout模型支持中英文论文、研报、试卷、书籍、报纸、杂志等多种文档类型的高精度识别与定位。

在CPU上，PP-DocLayout模型每秒可处理约69个文档图像页面，而在T4 GPU上，每秒可处理高达123个文档图像页面。

该模型解决了复杂文档适用性不足、结构识别能力有限及实时性能不足等问题。

PP-DocLayout系列提供高精度模型PP-DocLayout-L、精度和效率均衡模型PP-DocLayout-M，以及高效率模型PP-DocLayout-S。

用户可以通过简单的Python API调用模型，使用create_model()方法实例化对象，并使用predict()方法进行预测。

模型采用主动学习的数据轮动方法，筛选较难的样本和类别，以获取高质量多类型文档的训练数据。

🏷️