量子位 ·

全球OCR最强模型仅0.9B！百度文心衍生模型刚刚横扫4项SOTA

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

百度新发布的PaddleOCR-VL模型参数仅0.9B，获得OmniDocBench V1.5全球第一，全面超越文本、公式、表格和阅读顺序四项能力，标志着OCR技术的重大突破，具备强大的行业应用潜力。

🎯

🔎

PaddleOCR-VL的参数仅为0.9B，展现了轻量化设计的优势。这使得开发者能够在个人电脑上轻松运行，降低了技术门槛。同时，轻量化并未影响其性能，反而在多个核心能力上实现了SOTA，证明了小模型也能在复杂任务中表现出色。

PaddleOCR-VL在文本、公式、表格和阅读顺序等多项能力上表现优异，显示出其在金融、教育、政务等行业的广泛应用潜力。随着数字化转型的加速，该模型能够帮助企业提高效率，降低成本，成为各行业不可或缺的数字化基础设施。

PaddleOCR-VL采用创新的两阶段架构，提升了复杂文档解析的稳定性和效率。这种设计不仅在技术上具有优势，也使其在市场竞争中脱颖而出，尤其是在与大型模型的对比中，展示了小体量模型的强大能力，打破了“大模型才有好效果”的传统观念。

❓

PaddleOCR-VL模型的参数量仅为0.9B。

PaddleOCR-VL在OmniDocBench V1.5中获得了全球第一的综合得分92.6。

PaddleOCR-VL在文本识别中以96.5的成绩拿下全场最高分，支持109种语言。

PaddleOCR-VL的公式识别CDM得分高达0.9453，能精准还原复杂数学公式。

PaddleOCR-VL能够解析嵌套表格与合并单元格，得分达到89.8。

PaddleOCR-VL采用了创新的两阶段架构，提升了复杂版面任务的稳定性和效率。

🏷️