全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA

💡 原文中文,约5100字,阅读约需13分钟。
📝

内容提要

百度新发布的PaddleOCR-VL模型参数仅0.9B,获得OmniDocBench V1.5全球第一,全面超越文本、公式、表格和阅读顺序四项能力,标志着OCR技术的重大突破,具备强大的行业应用潜力。

🎯

关键要点

  • 百度新发布的PaddleOCR-VL模型参数仅0.9B,获得OmniDocBench V1.5全球第一。
  • PaddleOCR-VL在文本、公式、表格和阅读顺序四项能力上全面超越,成为唯一在这四个维度全部排名第一的模型。
  • 该模型设计用于复杂文档结构解析,具备强大的行业应用潜力。
  • PaddleOCR-VL在文本识别中以96.5的成绩拿下全场最高分,支持109种语言。
  • 在公式识别中,PaddleOCR-VL的CDM得分高达0.9453,能精准还原复杂数学公式。
  • 在表格理解方面,该模型能够解析嵌套表格与合并单元格,得分达到89.8。
  • PaddleOCR-VL在阅读顺序预测中表现优异,预测误差仅为0.043。
  • 该模型采用创新的两阶段架构,提升了复杂版面任务的稳定性和效率。
  • PaddleOCR-VL的轻量化设计与异步推理机制显著领先同类模型。
  • OCR技术在各行业中发挥着不可替代的作用,推动数字化基础设施建设。
  • PaddleOCR-VL不仅是文档解析工具,更是AI时代企业知识中台建设的关键基础设施。
  • 该模型的成功标志着中国在全球多模态文档解析领域的突破。
➡️

继续阅读