性能超越DeepSeek-OCR2,百度发布并开源新一代SOTA OCR模型

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

百度开源新一代OCR模型PaddleOCR-VL-1.5,实现全球首个“异形框定位”能力,精度达到94.5%。该模型在复杂文档解析中表现优异,支持多语种识别,推动OCR技术应用落地。

🎯

关键要点

  • 百度发布并开源新一代文档解析模型PaddleOCR-VL-1.5。
  • PaddleOCR-VL-1.5实现全球首个OCR模型的“异形框定位”能力,整体精度达到94.5%。
  • 该模型能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,解决传统OCR模型在真实场景中的识别失败问题。
  • PaddleOCR-VL-1.5在OmniDocBench V1.5多个关键指标上取得领先表现,表格结构理解和阅读顺序预测均位列第一。
  • 模型集成印章识别、文本检测与识别等任务能力,支持多语种识别,显著提升复杂结构识别能力。
  • 行业竞争加剧,多个主流模型厂商相继推出新一代OCR模型。
  • PaddleOCR-VL-1.5的系统突破有望降低产业应用门槛,推动OCR技术在真实生产环境中的深度落地。
  • PaddleOCR-VL-1.5已全面开源,开发者可通过GitHub、Hugging Face获取。
➡️

继续阅读