百度大脑 ·

突破文档解析极限：PaddleOCR-VL多模态文档解析方案发布，0.9B参数问鼎SOTA

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

PaddleOCR于2025年推出了新一代多模态文档解析模型PaddleOCR-VL，支持109种语言，具备高效的文本、表格和公式识别能力。该模型通过两个阶段进行文档解析，显著提升了识别能力和解码效率，适用于多种实际应用场景。

🎯

🔎

PaddleOCR-VL通过将文档解析任务分为两个阶段，显著提升了识别精度和效率。第一阶段的版面分析确保了语义区域的准确定位，而第二阶段则专注于细粒度的内容识别。这种分阶段的处理方式使得模型在复杂文档解析中表现优异，尤其适合需要高精度的应用场景。

PaddleOCR-VL支持109种语言的文档解析，涵盖了主流语言和小语种。这一特性使其在全球化文档处理方面具有广泛的适用性，尤其适合多语种环境中的企业和机构，能够有效满足不同用户的需求。

PaddleOCR-VL的核心模型仅有0.9B参数，结合高效的视觉编码器和语言模型，展现出低资源消耗和高处理速度的优势。这使得该模型在资源有限的环境中仍能保持良好的性能，适合大规模应用和实时处理需求。

❓

PaddleOCR-VL主要用于文档解析，能够精准识别文本、手写汉字、表格、公式和图表等复杂元素。

PaddleOCR-VL支持109种语言的文档解析。

PaddleOCR-VL的核心模型PaddleOCR-VL-0.9B结合了高效的视觉编码器和强大的语言模型，资源消耗低，速度快，效率高。

PaddleOCR-VL在整页文档解析和单个元素的识别方面取得了业界领先的成绩，明显优于其他方案。

PaddleOCR-VL的文档解析过程分为两个阶段：第一阶段进行版面分析，第二阶段进行细粒度识别。

PaddleOCR-VL每秒可处理1881个Token，推理速度较其他模型显著提升，展现出速度优势。

🏷️